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Preface 


Pablo Valdivia Martin 
University of Groningen - Netherlands 


When discussing with colleagues and students about the change in the paradigm that we 
are witnessing in the Humanities, we often find it challenging to define the fundamental 
elements of our discussion. In this regard, it is more important than ever to find common 
ground and a baseline for starting the dialogue in the Humanities from wherever we, ter- 
minologically, are. One of the goals of this book is to provide a shared territory where it 
will be easier to move, get inspired, and move forward together. Therefore, we must ask 
ourselves critical questions and offer tentative working frameworks. Despite commonly 
and regularly using the term Digital Humanities, it sometimes seems difficult to agree on 
what we call Digital Humanities. Thus, under the context of this volume, I suggest a work- 
ing definition of Digital Humanities as an interdisciplinary field that applies computation- 
al methods and tools to study human culture and society. It encompasses various disci- 
plines, such as literature, history, art, music, linguistics, philosophy, and more. Digital 
Humanities aims to enhance our understanding of human expression and experience 
through analyzing, visualizing, and preserving digital data. 

Additionally, when I refer to the term Corpus Studies, also crucial in this book, I opt 
for a broad definition encompassing a large and structured collection of texts or other forms 
of data that are representative of a language or a domain. Corpus Studies is essential for 
Digital Humanities because it provides the raw material for various types of analysis, such 
as text mining, sentiment analysis, topic modeling, stylometry, and more. Corpus Studies 
can also help us discover new patterns, trends, and insights not readily observable in indi- 
vidual texts or sources. 

Furthermore, Language Technologies, another notion pillared in this volume, are un- 
derstood in the context of these pages as a branch of artificial intelligence that deals with 
the processing and generation of natural language. Language Technologies enable us to 
interact with computers using natural languages, such as speech recognition, machine 
translation, and chatbots. Language Technologies also facilitate analyzing natural language 


data, such as natural language understanding, generation, information extraction, summa- 
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rization, and many more, which are well assessed and reflected in the pages of the present 
volume. 

This book presents examples and applications of how these scientific areas can enrich 
our knowledge and appreciation of human culture and society. Moreover, this book will 
inspire new generations of scholars to explore the possibilities and challenges of Digital 
Humanities in their research and teaching practices. 

Therefore, the research present in the chapters of this volume contributes to exploring 
new avenues regarding the cross-/inter-/multi-disciplinary intersections between the Dig- 
ital Humanities, Computational Cultural and Literary Studies, and Computational Lin- 
guistics. From its very conception, this book results from a joint effort between the Uni- 
versity of Antioquia and the University of Groningen and a firm belief in the cross-cutting 
domain nature of cultural and literary studies and how interdisciplinary approaches to 
everyday challenges, as recently brought up to the light by the UNESCO “Knowledge 
Driven Actions (2022), it an essential toolkit for the engineering of our future. 

Every chapter has been rigorously evaluated by academic peers who are experts in one 
of the varied fields of knowledge in this volume. This book will be a valuable resource for 
researchers, students, and anyone interested in the broadly so-called “digital turn” and the 
Humanities. I thank the authors who contributed to this book and the academic peers who 
reviewed their work. I would also like to thank our colleagues at the University of Antioquia 
and the University of Groningen for their support in bringing this project to fruition. 
Digital Humanities, Corpus, and Language Technologies are rapidly growing fields that 
have the potential to revolutionize research across various disciplines. New technologies 
have opened up new perspectives for research, allowing scientists to analyze data in previ- 
ously impossible ways. 

The first part of this book is devoted to Digital Humanities. This section includes chap- 
ters on digital storytelling, data visualization, and text mining. These contributions demon- 
strate how Digital Humanities can enhance research in various fields, from literature to 
history to anthropology. For example, one chapter discusses how digital storytelling can 
be used to teach history. The authors argue that students can better understand historical 
events and their significance using multimedia elements such as images, videos, and audio 
recordings. Another chapter discusses how data visualization can be used to analyze liter- 
ary texts. The authors demonstrate how visualizing patterns in language use can reveal 
insights into literary style and authorship. 

The second part of this book focuses on linguistic corpora construction. A corpus is a 


collection of texts for linguistic analysis. Corpus-based research has become increasingly 
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popular in linguistics because it allows researchers to analyze large amounts of data. This 
section includes contributions to corpus annotation, corpus design, and corpus-based lan- 
guage teaching. Another chapter discusses how corpus-based research can study language 
change over time. The authors demonstrate how analyzing changes in word frequency over 
time can reveal insights into linguistic evolution. While another contribution discusses 
how corpus-based language teaching can improve second language acquisition. The au- 
thors argue that exposing learners to authentic language use through corpora can develop 
more naturalistic language skills. 

This book's third part explores projects with corpus analysis and natural language pro- 
cessing as the main areas of interest. Computational linguistics studies how computers can 
process natural language data, while natural language processing is the application of com- 
putational techniques to analyze and understand human language. This section includes 
contributions to machine translation, named entity recognition, and text classification. For 
example, one of the chapter studies how machine learning can improve sentiment analysis. 
The authors demonstrate how training a machine learning algorithm on a large corpus of 
annotated data can improve its ability to classify sentiment accurately in new texts. Other 
scholars made substantial advancements in how named entity recognition can extract in- 
formation. This book overviews current Digital Humanities, Corpus, and Language Tech- 
nologies research. It demonstrates how these fields can enhance research across various 
disciplines. The conversation is now open. The data revolution has already changed every- 
thing. How would this inform the Humanities of tomorrow? This very question remains 
open, and yet its overwhelming and unattainable challenge is one of the most scientific 
quests that our generation must provide an answer to. The pages of this book are a modest 


but robust effort to create and find new paths. 
Prof. dr. Pablo Valdivia 


Academic Director Netherlands Research School for Literary Studies (OSL) 


Chair-Full Professor European Culture and Literature - University of Groningen 
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Jorge Molina Mejia & Andrés Grajales Ramirez 
Universidad de Antioquia - Colombia 


“Digital Humanities, Corpus and Language Technology: a look from diverse case studies” is 
a title that takes up, in an innovative way, three fields of knowledge that are combined in 
this research book, which is the result of a joint editing work between the University of 
Antioquia and the University of Groningen. It is important to note that in the present time 
and context, it is of utmost importance to elaborate works that have interdisciplinary stud- 
ies as a north and, in this sense, the work that we present below has the vocation to address 
current works in these three aspects, always with a view from the computer science and its 
application in the field of human and social sciences, and all this from an inter-university 
perspective. We have also decided to present the different chapters of this compendium in 
Spanish and English, so that they can be consulted by students and researchers who speak 
both languages. All this is based on the fact that the book we present here has been pro- 
duced between two institutions in which the most widely used languages are Spanish and 
English. Nevertheless, from a global perspective, our intention is that the chapters pub- 
lished here will reach a large part of the researchers who use either of these two languages 
in their research and teaching process. 

This book presents several case studies where the relationship between Digital Human- 
ities and Language Technology and its application in linguistic corpora is evident. As pre- 
viously anticipated, Digital Humanities can contribute to the creation and analysis of lin- 
guistic corpora thanks to the use of new technologies and tools that allow greater 
efficiency and precision in Natural Language Processing. On the other hand, the study of 
corpora can help to discover patterns and trends in linguistic data that would be difficult 
to detect using traditional methods, which benefits the Digital Humanities. New technol- 
ogies and digital tools allow today to complement each other, through greater efficiency 
and precision in the processing and understanding of human languages. From this mo- 
ment, it can be glimpsed that the future of these disciplines is highly promising, as they 
have begun to play an important role in research and studies, and is expected to continue 


to grow. As the current era advances and new developments emerge, language technologies 
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become more sophisticated, so there will be new opportunities, but also new challenges in 
these fields. 

Currently, it is common for work related to these topics to be focused on fields such as 
literature, history, linguistics, sociology, etc. However, it is expected that, in the future, the 
Digital Humanities and the analysis of linguistic corpora will be able to extend their appli- 
cations to even more diverse disciplines, such as digital anthropology, computational ar- 
chaeology, cultural studies or music. This will make it possible to address and investigate 
a wide range of human phenomena from a digital approach. This is quickly evidenced by 
the recent advancement of artificial intelligences and machine learning, with which Natu- 
ral Language Processing and corpus analysis are expected to become even more accurate. 
This will open new possibilities for linguistic, philological, and other studies, allowing 
researchers to perform more in-depth analysis, with more subtle pattern detection. Simi- 
larly, access to corpora of texts and data is expected to become increasingly easier, as with 
the rise of digital libraries, data repositories, and information gathering and storage tools, 
researchers will have access to an ever-increasing number of digital resources to analyze, 
which will greatly expand research possibilities. 

In summary, the future of Digital Humanities, Corpus Studies, and Language Technol- 
ogy, all put together, demonstrates an inevitable expansion of their application in various 
disciplines, whereby the advancement of natural language processing techniques and ac- 
cess will be ever-increasing. These advances promise an exciting future within these disci- 
plines, giving them a major role in future research, especially in the study of the Humani- 
ties in the digital environment. The possibilities and applications of these disciplines are 
just beginning to be visualized, but there will be more to come and explore. A revolution 
that is now focused on the “awakening” of AI, but that in the future may be something we 
did not see coming. 

This book is therefore subdivided into three main parts, the first of which is devoted to 
Digital Humanities and the use of new technologies for different aspects of the human and 
social sciences. The second part deals with research works related to the compilation, char- 
acterization, or construction of linguistic corpora. Finally, the third part explores projects 
based on corpus analysis and natural language processing. All the chapters presented here 
have been rigorously evaluated by academic peers, experts in some of the fields of knowl- 
edge mentioned here. We will now present each of the parts and their respective chapters. 

In the first part of this work, we can find four chapters, which deal with topics about 
digital humanities such as: visual arts, online libraries, relational databases for the study of 


classical Greek and Latin, and the use of Python in epistolary analysis. 
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Chapter I has been co-written by Professors John Roberto and Brian Davis and is en- 
titled “Understanding Outsider Art in the context of Digital Humanities”. This chapter pre- 
sents the Outsider Art project, which aims to present a group of very innovative artists who 
are called “outsiders”, who are usually marginalized aesthetically and socially due to their 
psychiatric condition, as well as homeless people, prison inmates, people with disabilities, 
migrants, and ethnic minorities. This is how this project arises, which aims to propose an 
automatic discovery of the semantic limits of outsider art in the context of digital human- 
ities. Methodologically, this proposal is based on three tasks: a) the collection of a corpus 
of outsider art; b) generate a large dataset of digital images about this type of art; and c) 
build the first ontology of this art. 

Chapter II deals with “The Virtual Library of Spanish Philology (BVFE) and its Hispan- 
ic-American heritage”, and has been co-written by professors Jaime Peña Arce and Maria 
Angeles Garcia Aranda. This work has a double objective: on the one hand, to publicize the 
Library of Spanish Philology, which is a portal that gathers a large number of linguistic 
works related to Spanish, which can be accessed freely and free of charge. Secondly, the 
authors seek to investigate the Hispanic American component of its collection, with the 
purpose of reflecting on all that has been done and what still remains to be done. 

In Chapter III, “From two relational databases to an XML database. The COMREGLA 
project’, co-written by a group of researchers attached to higher education centers in Spain: 
Eveling Garzón Fontalvo, Berta Gonzalez Saavedra, José Ignacio Hidalgo Gonzalez, Iván 
López Martín, Alberto Pardal Padín, Guillermo Salas Jiménez and Cristina Tur. In this 
chapter the authors present a series of modifications and adaptations made on two rela- 
tional bases of the REGLA project (REction and Complementation in Ancient Greek and 
Latin) whose emphasis is on verbal predications. It is important to emphasize that the 
purpose of the changes introduced is to make the information contained in the database 
compatible with other automatic language processing tools and to provide analyses that go 
beyond the nuclear and basic predications, that is, towards full texts. In order to enable the 
respective analyses, the researchers have created a new annotation standard that allows to 
reflect the richness of morphological, syntactic, semantic and lexical information; all this 
allows to account for the very recursion of language and to enrich the analysis with labels 
for linguistic components not studied before. 

In Chapter IV, Santiago Alejandro Ortiz Hernández proposes the work called “Anal- 
ysis of the correspondence of Colonel Anselmo Pineda with Python: a look at the collector 
project and the territory from social networks and machine learning”. This chapter analyzes 


the collecting of Colonel Anselmo Pineda during the nineteenth century in Colombia, 
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based on his voluminous epistolary preserved in the National Library of Colombia. To this 
end, the author proposes a mixed methodology that combines the traditional close reading 
and a distant reading carried out from the machine thanks to techniques of data science 
and geographic information systems implemented thanks to the Python language. This 
approach has two main objectives: a) to discover the colonel’s method of collecting docu- 
ments by examining the composition of his network of collaborators reconstructed through 
his personal correspondence, all based on digital humanities and digital history; and b) to 
explore the spatial scope of this network of collaborators, which should make it possible 
to evaluate the spatial dimension in the formation of the Pineda library within the civiliz- 
ing project of the nascent republic in New Granada. 

The second part has to do with corpus linguistics, in this sense, six chapters were re- 
ceived, in which important topics such as: linguistic atlas corpora, the study of multimod- 
al corpora applied to the Brazilian oral language, the study of Mexican indigenous languag- 
es, lie detection and credibility assessment based on corpora specially designed for this 
purpose, linguistic corpora that allow the study of colloquial German language, and a 
corpus of learners of English as a Foreign Language. 

Chapter V, entitled “Development of a corpus of linguistic atlases’, is a proposal by 
Professor Carolina Julia Luna. In this chapter, the author presents some characteristics and 
functionalities of this type of computer tools, in which data from various regional linguis- 
tic atlases of European Spanish are stored. The purpose of all this is to conserve the linguis- 
tic heritage, to serve as a source for the dissemination of variation and richness in the 
language and, finally, to help complement the data from textual corpora and lexicograph- 
ic works that help to expand research on linguistic change and the history of the Spanish 
language. 

Chapter VI deals with “The C-ORAL-BRASIL proposal for the treatment of multimodal 
data in corpus: the pilot project of the BGEST corpus’, a work proposed by Professors Cami- 
la Barros and Heliana Mello. According to the authors, this chapter discusses methodolog- 
ical issues associated with the collection and processing of multimodal data, especially 
those related to the predominant role of action. The main objective of the chapter is to 
connect the organization of the structure of information, based on the union of the Theo- 
ry of Language in Action and the concept of spatial-motor packaging. At the end, the au- 
thors will show us the crucial role of prosody in the informational categories of L-AcT and 
its impact on the interpretation of gestures. 

Chapter VII, co-written by Antonio Reyes Pérez and Antonio Garcia Zúñiga, is entitled 


“Language technologies and indigenous Mexican languages: constitution of an Amuzgo-Span- 


18 


Introduction 


ish parallel corpus”. This proposal describes the particularities of the construction of the 
first Amuzgo-Spanish parallel corpus, which represents a real source of data for scientific 
research in the field of language, as well as for the development of resources and tools for 
languages that are scarcely represented and in danger of disappearing. 

Chapter VIII deals with the “Methodological Bases: the construction of a corpus for the 
detection of lies and the evaluation of credibility” and is the work of Pedro Eduardo Hernan- 
dez Fuentes. In this chapter it is possible to access the meta-analytical approaches that show 
that verbal information is a reliable indicator that allows to identify lies or to evaluate the 
credibility of a testimony. For this purpose, the author shows a work based on a linguistic 
corpus that has been developed thanks to a transdisciplinary perspective between linguis- 
tics and psychology. 

In Chapter IX, “Türkisch für Anfänger: proposal of a corpus of modern colloquial Ger- 
man, exemplified from routine phrases for greetings’, Karen Baquero Castro builds a specif- 
ic corpus of German from more than 12,000 lines of dialogue from the German television 
series Túrkisch fiir Anfánger. The aim of this corpus is to optimize the process and accom- 
paniment in the teaching and learning of German as a foreign language. In order to exem- 
plify its usefulness and use, the corpus focuses on the formulas used in the series, more 
precisely on the greeting formulas. These are analyzed by the author from a didactic per- 
spective and appealing to the analysis of linguistic corpora that consider the context in 
order to favor the teaching-learning process by means of authentic texts. 

Finally, among these works on corpus construction, we have chapter X “CLEC - Co- 
lombian Learner English Corpus: first learner corpus of written production in English online 
in Colombia”, which deals with the study of Professor M. Victoria Pardo and Professor 
Antonio Tamayo, both Colombians, on the constitution of a corpus called CLEC. This 
would be the first corpus on English learners, based on written texts produced by the 
learners themselves, from Colombia, and accessible through the website of the TNT re- 
search group of the University of Antioquia. It is a corpus of more than 200,000 words that 
is fully labeled to classify the types of errors made by learners, as well as the level of the 
learner. The chapter shows the criteria used for the collection of CLEC, respecting the 
guidelines of corpus linguistics and learner corpus. Thus, in this corpus, learners’ errors 
can be consulted, and this phenomenon can be studied by teachers and researchers, who 
can contribute new texts, as well as by those interested in learning and studying English as 
a foreign language. 

The third and last part also deals with works in the field of corpus linguistics, but from 


a perspective more related to analysis and its methods, in which computational linguistics 
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and Natural Language Processing (NLP), as well as statistical analysis, are often used. This 
section is made up of five chapters. 

Thus, Chapter XI, entitled “Pronunciation of consonant clusters in Spanish speakers 
based on the Czech read speech corpora’, and written by Czech researchers Katerina 
Pugachova and Jitka Veronkova, presents a study that aims to determine which Czech 
consonant clusters are difficult to pronounce for Spanish speakers and which are the most 
frequent sound changes due to differences in syllable structure between these two languag- 
es. A set of 26 consonant clusters in initial, middle, and final positions of words was select- 
ed. Seventy-five words containing the target consonant clusters were included in a coherent 
text written in Czech (of 838 words). The study provides useful information for improving 
the teaching of Czech to native speakers of Spanish. 

Continuing with the analyses on specific corpora, in Chapter XII, “Relating qualitative 
and quantitative analysis. A predictive statistical model proposal to complete the complex 
description of cognitive verbs”, M. Amparo Soler Bonafont (Spain) presents a proposal for 
a predictive statistical model to complete the complex description of cognitive verbs, spe- 
cifically performative forms. The model designed allows us to recognize, with a high degree 
of explanatory power, the meanings, and pragmatic functions of polysemous and polyfunc- 
tional units such as “creo”. Moreover, the model can be replicated in other texts and genres 
in which similar epistemic units may appear. 

In Chapter XIII, “Use of Bayesian networks for the analysis of corpus of local problems 
related to the Sustainable Development Goals”, Caro Piñeres and Moreno Garcia, from the 
University of Córdoba (Colombia), present a sentiment analysis study based on Bayesian 
networks in a corpus related to social problem solving. It exemplifies the use of Bayesian 
networks for data analysis, modeling, and decision support in various domains. The need 
for techniques and tools that automatically construct Bayesian networks from massive text 
or bibliographic data is discussed, especially in relation to the United Nations-led Sustain- 
able Development Goals (SDGs). The paper also discusses the collection and analysis of 
textual information to build Bayesian networks, as well as the limitations and challenges 
associated with this technique. The objective is to describe the process of collecting, organ- 
izing, annotating, and validating a corpus of more than 3,000 descriptions of problems 
related to SDG compliance in three regions of Colombia. The main outcome of the study 
was the creation of a large digital corpus of descriptions of problems related to SDG com- 
pliance in these three regions. In addition, the potential of the corpus was evaluated through 
the application of a Bayesian network algorithm, which produced a high rate of correct 


answers. 
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Chapter XIV welcomes us to the study on the correlation between the orientational 
metaphor BUENO ES ARRIBA / MALO ES ABAJO and positive/negative polarity in Spanish 
verbs. This study, entitled “Correlation between the orientational metaphor Goon Is uP / 
BAD IS DOWN and positive/negative polarity in Spanish verbs: a study with corpus statistics” 
and conducted by colleagues from the Pontificia Universidad Católica de Valparaiso 
(Chile), seeks to test the relationship between vertical orientation and polarity in Spanish 
orientational metaphors. Ten Spanish verbs with ‘up/down’ meaning were selected and 
their association was measured in corpus concordances with lexical units with ‘posi- 
tive’/‘negative’ meaning, labeled by means of a polarity lexicon. The results of the study 
indicate that there is a relationship between vertical orientation and positive or negative 
polarity in real contexts of use of the units of analysis. This makes it possible to test empir- 
ically and by means of corpus statistical methods the orientational metaphor on a linguis- 
tic level. With this it can be stated, with a high degree of certainty, that verbs with a sense 
of ‘up’ will tend to be part of sentences in which a ‘positive’ sense will be expressed, and 
verbs with a sense of ‘down’ will tend to be included in sentences with a ‘negative’ sense. 

Finally, a different and innovative study in the field of language processing is the work 
of José Luis Pemberty, accompanied and advised by J. Molina Mejia, editor of this volume. 
This Chapter XV, “UnderRL Tagger: a free software for Under-Resourced Languages POS 
tagging’, presents a free software that allows morphologically annotating (POS) under-re- 
sourced languages (Under-Resourced Languages). With this model, the process can be 
performed manually, but the algorithm can also be trained to gradually automate it. The 
output format uses the EAGLES tags in XML, with the intention of making it possible to 
process big data. This would provide a valuable computing resource for languages with few 


native speakers or poorly studied languages. 
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Jorge Molina Mejia & Andrés Grajales Ramirez 
Universidad de Antioquia - Colombia 


“Humanidades Digitales, Corpus y Tecnologia del Lenguaje: una mirada desde diversos casos 
de estudio” es un titulo que retoma, de una manera innovadora, tres campos del conoci- 
miento que se conjugan en el presente libro de investigación, el cual es fruto de un trabajo 
conjunto de edición entre la Universidad de Antioquia y la Universidad de Groningen. Es 
importante constatar que en la época y el contexto actuales resulta de suma importancia 
elaborar obras que tengan como norte los estudios interdisciplinarios y, en este sentido, la 
obra que presentamos a continuación tiene por vocación abordar trabajos actuales en estos 
tres aspectos, siempre con una mirada desde la informática y de su aplicación en el campo 
de las ciencias humanas y sociales, y todo ello desde una perspectiva interuniversitaria. 
Hemos decidido, además, que los diferentes capítulos que hacen parte del presente com- 
pendio se presenten en español y en inglés, esto con el fin de que puedan ser consultados 
por estudiantes e investigadores hablantes de ambas lenguas. Todo esto se fundamenta en 
el hecho de que el libro que aquí presentamos se ha realizado entre dos instituciones en las 
que las lenguas de mayor uso son el español y el inglés. No obstante, desde una perspecti- 
va global, nuestra pretensión es que los capítulos aquí publicados lleguen a una gran parte 
de los investigadores que emplean alguna de estas dos lenguas en su proceso investigativo 
y de docencia. 

El libro presenta diversos casos de estudio donde la relación de las Humanidades Di- 
gitales con la Tecnología del Lenguaje y su aplicación en corpus lingüísticos es evidente. 
Como se anticipó anteriormente, las Humanidades Digitales pueden aportar en la creación 
y análisis de corpus lingüísticos gracias a la utilización de nuevas tecnologías y herramien- 
tas que permiten una mayor eficiencia y precisión en el Procesamiento del Lenguaje Na- 
tural. Por otro lado, el estudio de corpus puede ayudar a descubrir patrones y tendencias 
en los datos lingitisticos que serían difíciles de detectar mediante métodos tradicionales, 
lo cual beneficia a las Humanidades Digitales. Las nuevas tecnologías y herramientas di- 
gitales permiten hoy en día complementarse, mediante mayor eficiencia y precisión en el 


tratamiento y comprensión de los lenguajes humano. Desde este instante, se puede vislum- 
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brar que el futuro de estas disciplinas es altamente prometedor, pues han empezado a 
desempeñar un papel importante en las investigaciones y los estudios, y se espera que siga 
creciendo. A medida que se avanza y surgen nuevos desarrollos en la era actual, las tecno- 
logías del lenguaje se tornan más sofisticadas, por lo cual habrá nuevas oportunidades, pero 
también nuevos desafíos en estos campos. 

Actualmente, es común que los trabajos relacionados con estas temáticas se centren en 
campos como la literatura, la historia, la lingüística, la sociología, etc. Sin embargo, se es- 
pera que, en el futuro, las Humanidades Digitales y el análisis de corpus lingúísticos puedan 
ampliar sus aplicaciones en disciplinas aún más diversas, tales como la antropología digital, 
la arqueología computacional, los estudios culturales o la música. Lo cual va a permitir 
abordar e investigar una amplia gama de fenómenos humanos desde un enfoque digital. 
Esto rápidamente se evidencia en el reciente avance de las inteligencias artificiales y el 
aprendizaje automático, con lo que se espera que el Procesamiento del Lenguaje Natural y 
el análisis de corpus se vuelvan aún más precisos. Esto abrirá nuevas posibilidades para los 
estudios lingúísticos, filológicos y demás, permitiendo que los investigadores realicen aná- 
lisis a más profundidad, con detección de patrones más sutiles. De igual manera, se espera 
que el acceso a corpus de textos y datos sea cada vez más fácil, pues con el incremento de 
las bibliotecas digitales, los repositorios de datos y las herramientas de recolección y alma- 
cenamiento de información, los investigadores tendrán acceso a una cantidad cada vez 
mayor de recursos digitales para analizar, lo cual ampliará enormemente las posibilidades 
de investigación. 

En resumen, el futuro de las Humanidades Digitales, el estudio de Corpus y la Tecno- 
logía del lenguaje, todo puesto en relación, demuestra una inevitable expansión de su 
aplicación en diversas disciplinas, por lo que el avance de las técnicas de procesamiento del 
lenguaje natural y el acceso será cada vez mayor. Estos avances prometen un futuro emo- 
cionante dentro de estas disciplinas, otorgándoles un papel principal en las investigaciones 
venideras, sobre todo, en cuanto al estudio de las Humanidades en el entorno digital. Las 
posibilidades y aplicaciones de estas disciplinas apenas se empiezan a visualizar, pero habrá 
más por llegar y explorar. Una revolución que ahora tiene puesto el foco en el “despertar” 
de las IA, pero que en el futuro puede tratarse de algo que no veníamos venir. 

El presente libro se encuentra subdividido, por lo tanto, en tres grandes partes, la pri- 
mera dedicada al tema de las humanidades digitales y la utilización de las nuevas tecnolo- 
gías para diferentes aspectos de las ciencias humanas y sociales. En la segunda parte, se 
abordan trabajos de investigación que tienen que ver con la compilación, caracterización 


o construcción de corpus lingüísticos. Finalmente, la tercera propende por explorar pro- 
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yectos que tienen como punto de apoyo el análisis de corpus y el procesamiento del len- 
guaje natural. Todos los capítulos aquí presentados, han sido rigurosamente evaluados por 
pares académicos, expertos en alguno de los campos de conocimiento aquí mencionados. 
Pasaremos, a continuación, a presentar cada una de las partes y sus respectivos capítulos. 

En la primera parte de la presente obra podemos encontrar cuatro capítulos, los cuales 
versan sobre temas acerca de las humanidades digitales tales como: las artes visuales, las 
bibliotecas en línea, las bases de datos relacionales para el estudio del griego y el latín clá- 
sicos, y el empleo de Python en el análisis epistolario. 

El capítulo I ha sido coescrito por los profesores John Roberto y Brian Davis, y lleva 
por título “Entender el Arte Outsider en el contexto de las Humanidades Digitales”. En este 
capítulo se presenta el proyecto de Arte Outsider, el cual tiene como objetivo presentar a 
un grupo de artistas muy innovadores que son los denominados “outsiders”, los cuales 
normalmente se encuentran marginados a nivel estético y social debido a su condición 
psiquiátrica, también de ser personas sin hogar, reclusos carcelarios, personas con disca- 
pacidad, migrantes y minorías étnicas. Es así como surge este proyecto que tiene como 
finalidad proponer un descubrimiento automático de los límites semánticos del arte out- 
sider en el contexto de las humanidades digitales. Metodológicamente, esta propuesta se 
fundamenta en tres tareas: a) la recopilación de un corpus de arte outsider; b) generar un 
gran conjunto de datos de imágenes digitales sobre este tipo de arte; y c) construir la pri- 
mera ontología de este arte. 

El capitulo II versa sobre “La Biblioteca Virtual de la Filología Española (BVFE) y su 
acervo hispanoamericano”, y ha sido coescrito por los profesores Jaime Peña Arce y María 
Ángeles García Aranda. En este trabajo parte de un doble objetivo, por un lado, dar a co- 
nocer la Biblioteca de la Filología Española, la cual se constituye como un portal que reco- 
ge una gran cantidad de obras lingüísticas relacionadas con el español, a las que se puede 
acceder de forma libre y gratuita. En segundo lugar, los autores buscan indagar en el com- 
ponente hispanoamericano de su acervo, con el propósito de recapacitar sobre todo aque- 
llo que se ha hecho y lo que aún queda por hacerse. 

En el capitulo III, “De dos bases de datos relacionales a una base de datos XML. El 
proyecto COMREGLA’, coescrito por un grupo de investigadores adscritos a centros de 
educación superior de España: Eveling Garzón Fontalvo, Berta González Saavedra, José 
Ignacio Hidalgo González, Iván López Martín, Alberto Pardal Padín, Guillermo Salas Ji- 
ménez y Cristina Tur. En este capítulo los autores presentan una serie de modificaciones y 
adaptaciones efectuadas sobre dos bases relacionales del proyecto REGLA (REcción y com- 


plementación en Griego Antiguo y Latín) cuyo énfasis se encuentra en las predicaciones 
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verbales. Resulta importante destacar que la finalidad de los cambios introducidos se en- 
marcan en el proyecto COMREGLA conduce a que la información contenida dentro de la 
base de datos sea compatible con otras herramientas de tratamiento automático del len- 
guaje y que provea análisis que vayan más allá de las predicaciones nucleares y básicas, es 
decir, hacia las de textos completos. Con el fin de permitir los respectivos análisis, los in- 
vestigadores han creado un nuevo estándar de anotación que permite reflejar la riqueza de 
la información morfológica, sintáctica, semántica y léxica; todo ello permite dar cuenta de 
la propia recursividad del lenguaje y enriquecer el análisis con etiquetas para componentes 
lingúísticos no antes estudiados. 

En el capítulo IV, el profesor Santiago Alejandro Ortiz Hernández propone el trabajo 
denominado “Análisis del epistolario del coronel Anselmo Pineda con Python: Una mirada 
al proyecto coleccionista y al territorio desde las redes sociales y el aprendizaje automático”. 
En dicho capítulo se analiza el coleccionismo del coronel Anselmo Pineda durante el siglo 
XIX en Colombia, a partir de su voluminoso epistolario conservado en la Biblioteca Na- 
cional de Colombia. Para tal fin, el autor propone una metodología mixta que combina la 
tradicional lectura cercana y una lectura distante efectuada a partir de la máquina gracias 
a técnicas propias de la ciencia de datos y los sistemas de información geográfica imple- 
mentados gracias al lenguaje Python. Esta manera de proceder busca dos grandes objetivos: 
a) poder descubrir el método de recopilación de documentos del coronel al examinar la 
composición de su red de colaboradores reconstruida mediante su correspondencia per- 
sonal, todo ello basado en las humanidades digitales y la historia digital; y b) explorar el 
alcance espacial de esa red de colaboradores, lo que debería posibilitar la evaluación de la 
dimensión espacial en la conformación de la biblioteca Pineda al interior del proyecto ci- 
vilizatorio de la naciente república en Nueva Granada. 

La segunda parte tiene que ver con la lingüística de corpus, en este sentido se recibieron 
seis capítulos, en los cuales se abordan temas tan importantes como: los corpus de atlas 
lingúísticos, el estudio de corpus multimodales aplicados a la lengua oral brasileña, el es- 
tudio de lenguas indígenas mexicanas, la detección de mentiras y la evaluación de la cre- 
dibilidad a partir de corpus especialmente diseñados para tal fin, corpus lingúísticos que 
permiten el estudio del alemán coloquial, y un corpus de aprendices de inglés como lengua 
extranjera. 

El capitulo V, que lleva por título “Desarrollo de un corpus de atlas lingüísticos”, es una 
propuesta de la profesora Carolina Julia Luna. En este capítulo, su autora presenta algunas 
características y funcionalidades de este tipo de herramientas informáticas, en la que se 


almacenan datos provenientes de diversos atlas lingúísticos regionales del español europeo. 
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Todo ello, tiene como finalidad que se pueda conservar el patrimonio lingúístico, que 
puedan servir como fuente de divulgación de la variación y la riqueza en el lenguaje y, fi- 
nalmente, que ayuden a complementar los datos procedentes de corpus textuales y de obras 
lexicográficas que ayuden a ampliar las investigaciones sobre el cambio lingüístico y la 
historia de la lengua española. 

En el capítulo VI se aborda “La propuesta del C-ORAL-BRASIL para el tratamiento de 
datos multimodales en corpus: el proyecto piloto del corpus BGEST”, un trabajo propuesto 
por las Profesoras Camila Barros y Heliana Mello. Según las autoras, en este capítulo se 
discuten cuestiones metodológicas asociadas a la recopilación y al tratamiento de datos 
multimodales, especialmente a aquellos ligados al papel preponderante de la acción. El 
objetivo principal del mismo es el de conectar la organización de la estructura de la infor- 
mación, a partir de la unión de la Teoría de la lengua en Acto y el concepto de empaque- 
tado espacio-motor. Al final, las autoras nos mostrarán el papel crucial que adquiere la 
prosodia en las categorías informacionales de la L-AcT y su impacto en la interpretación 
de los gestos. 

El capítulo VII, coescrito por Antonio Reyes Pérez y Antonio García Zúñiga, lleva por 
título “Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un 
corpus paralelo amuzgo-español”. En esta propuesta se describen las particularidades de la 
construcción del primer corpus paralelo amuzgo-español, el cual representa una fuente de 
datos reales para la investigación científica en el campo del lenguaje, particularmente, así 
como en lo que respecta al desarrollo de recursos y de herramientas para lenguas escasa- 
mente representadas y en peligro de desaparición. 

El capítulo VIII tiene que ver con las “Bases metodológicas: la construcción de un corpus 
para la detección de mentiras y la evaluación de la credibilidad”, y es obra de Pedro Eduardo 
Hernández Fuentes. En este capítulo es posible acceder a los acercamientos metaanalíticos 
que muestran que la información verbal es un indicador confiable que permite identificar 
mentiras o evaluar la credibilidad de un testimonio. Para ello, el autor muestra un trabajo 
fundamentado en un corpus lingüístico que ha sido desarrollado gracias a una perspectiva 
transdisciplinaria entre lingúística y psicología. 

En el capítulo IX, “Tiirkisch fiir Anfánger: propuesta de un corpus del alemán coloquial 
actual, ejemplificado a partir de las fórmulas rutinarias de saludo”, Karen Baquero Castro 
construye un corpus específico de alemán a partir de más de 12 000 líneas de diálogo de la 
serie de televisión alemana Tiirkisch fiir Anfánger. El objetivo de este corpus es optimizar 
el proceso y el acompañamiento en la enseñanza y aprendizaje del alemán como lengua 


extranjera. Se centra entonces, para ejemplificar su utilidad y uso, en las fórmulas de tra- 
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tamiento alli presentes, mas precisamente en las formulas de saludo. Estas son analizadas 
por la autora desde una perspectiva didáctica y apelando al análisis de corpus lingúísticos 
que tengan en cuenta el contexto para favorecer la enseñanza-aprendizaje por medio de 
textos auténticos. 

Tenemos, por último, dentro de estos trabajos sobre construcción de corpus, el capí- 
tulo X ”CLEC - Corpus Colombiano de Aprendices de Inglés: primer corpus de producción 
escrita de aprendices de inglés en Colombia disponible en línea”, en el cual se aborda el estu- 
dio de la profesora M. Victoria Pardo y el profesor Antonio Tamayo, ambos colombianos, 
sobre la constitución de un corpus llamado CLEC. Este consistiría en el primer corpus 
sobre aprendientes de inglés, el cual se basa en textos escritos producidos por los mismos 
aprendientes, provenientes de Colombia, y accesible por medio de la web del grupo de 
investigación TNT de la Universidad de Antioquia. Es un corpus de más de 200 000 pa- 
labras que se encuentra totalmente etiquetado para clasificar los tipos de errores que co- 
meten los aprendientes, así como también el nivel del estudiante. El capítulo muestra los 
criterios que se utilizaron para la recolección de CLEC, respetando las pautas de la lingüís- 
tica de corpus y de corpus de aprendientes. Es así como en este corpus se pueden consultar 
los errores de los aprendientes y estudiar este fenómeno tanto profesores e investigadores, 
que pueden aportar textos nuevos, como interesados en aprender y estudiar el idioma inglés 
como lengua extranjera. 

La tercera y última parte aborda también trabajos en el campo de la lingúística de cor- 
pus, pero desde una perspectiva más relacionada con el análisis y sus métodos, en el que a 
menudo se valen de la lingüística computacional y el procesamiento del lenguaje natural 
(PLN), como también del análisis estadístico. Esta sección se encuentra constituida por 
cinco capítulos. 

De esta manera, el capítulo XI, titulado “La pronunciación de los grupos de consonantes 
en hispanohablantes basándose en el corpus oral leído checo”, y escrito por los investigadores 
checos Kateřina Pugachova y Jitka Veronkova, presenta un estudio que tiene como objeti- 
vo determinar qué grupos de consonantes del checo son difíciles de pronunciar para los 
hablantes de español y cuáles son los cambios de sonido más frecuentes debido a las dife- 
rencias en la estructura silábica entre estos dos idiomas. Se seleccionó un conjunto de 26 
grupos de consonantes en posiciones iniciales, medias y finales de palabras. Se incluyeron 
75 palabras que contenían los grupos de consonantes objetivo en un texto coherente escri- 
to en checo (de 838 palabras). El estudio proporciona información útil para mejorar la 


enseñanza del checo a los hablantes nativos de español. 
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Continuando con los análisis en corpus específicos, en el capítulo XII, “Relacionando 
los análisis cualitativo y cuantitativo. Una propuesta de modelo estadístico predictivo para 
completar la descripción compleja de los verbos cognitivos”, M. Amparo Soler Bonafont (Es- 
paña) nos presenta una propuesta de modelo estadístico predictivo para completar la des- 
cripción compleja de los verbos cognitivos, específicamente las formas performativas. El 
modelo diseñado permite reconocer con un elevado grado de explicatividad ante qué sig- 
nificados y funciones pragmáticas de unidades polisémicas y polifuncionales como “creo” 
nos encontramos. Además, el modelo es replicable en otros textos y géneros en los que 
pueden aparecer unidades epistémicas similares. 

En el capítulo XIII, “Uso de redes Bayesianas para el análisis de corpus de problemas 
locales relacionados con los Objetivos de Desarrollo Sostenible”, Caro Piñeres y Moreno Gar- 
cía, de la Universidad de Córdoba (Colombia), presentan un estudio de análisis de senti- 
miento basado en redes bayesianas en un corpus relacionado con resolución de problemas 
sociales. Este ejemplifica el uso de redes bayesianas para el análisis de datos, modelado y 
apoyo a la toma de decisiones en varios dominios. Se discute la necesidad de técnicas y 
herramientas que construyan automáticamente redes bayesianas a partir de textos masivos 
o datos bibliográficos, especialmente en relación con los Objetivos de Desarrollo Sosteni- 
ble (ODS) liderados por las Naciones Unidas. El documento también aborda la recopila- 
ción y análisis de información textual para construir redes bayesianas, así como las limi- 
taciones y desafíos asociados con esta técnica. El objetivo es describir el proceso de 
recopilación, organización, etiquetado y validación de un corpus de más de 3 000 descrip- 
ciones de problemas relacionados con el cumplimiento de los ODS en tres regiones de 
Colombia. El resultado principal del estudio fue la creación de un gran corpus digital de 
descripciones de problemas relacionados con el cumplimiento de los ODS en estas tres 
regiones. Además, se evaluó el potencial del corpus mediante la aplicación de un algoritmo 
de red bayesiana, que produjo una alta tasa de respuestas correctas. 

El capítulo XIV nos da la bienvenida al estudio sobre la correlación entre la metáfora 
orientacional BUENO ES ARRIBA / MALO ES ABAJO y la polaridad positiva/negativa en verbos 
del español. Este estudio, titulado “Correlación entre la metáfora orientacional BUENO ES 
ARRIBA / MALO ES ABAJO y polaridad positiva/negativa en verbos del español: un estudio con 
estadística de corpus” y realizado por los colegas de la Pontificia Universidad Católica de 
Valparaíso (Chile), busca comprobar la relación entre la orientación vertical y la polaridad 
en las metáforas orientacionales del español. Se seleccionaron 10 verbos del español con 
significado ‘subir’/ ‘bajar’ y se midió su asociación en las concordancias del corpus con 


unidades léxicas con significado ‘positivo’/‘negativo, etiquetadas mediante un lexicon de 
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polaridad. Los resultados del estudio indican que existe una relación entre la orientación 
vertical y la polaridad positiva o negativa en contextos reales de uso de las unidades de 
análisis. Esto permite comprobar empíricamente y mediante métodos de estadística de 
corpus la metáfora orientacional en un nivel lingúístico. Con ello se puede afirmar, con un 
grado elevado de certeza, que los verbos que presenten un sentido de “subir” tenderán a 
formar parte de frases en las que se expresará un sentido “positivo, y los verbos con sentido 
‘bajar’ tenderán a estar incluidos en frases con sentido ‘negativo. 

Por último, un estudio diferente e innovador en el ámbito del tratamiento del lenguaje 
es el trabajo de José Luis Pemberty, acompañado y asesorado por J. Molina Mejía, editor 
de este volumen. Este capitulo XV, “UnderRL Tagger: un software libre para etiquetar POS 
en Under-Resourced Languages”, se presenta un software libre que permite anotar morfo- 
lógicamente (POS) lenguas de pocos recursos (Under-Resourced Languages). Con este 
modelo se puede realizar de manera manual el proceso, pero, además entrenar el algoritmo 
para paulatinamente ir automatizándolo. El formato de salida utiliza las etiquetas EAGLES 
en XML, con la intención de que sea posible el tratamiento de grandes datos. De este modo, 
se les aportaría un valioso recurso informático a lenguas de pocos hablantes nativos o 


lenguas poco estudiadas. 
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Understanding Outsider Art in the 
context of Digital Humanities 


Entender el Arte Outsider en el 
contexto de las Humanidades 
Digitales 


John Roberto & Brian Davis 
Dublin City University - Ireland 


Abstract: This chapter introduces the Outsider Art Project. “Outsiders” are highly 
innovative artists who have been aesthetically and socially marginalized because of 
their status as psychiatric patients, homeless, recluses, people with disabilities, mi- 
grants and ethnic minorities. Because of the need to characterize outsider art on a 
formal basis, this project is aimed at the automatic discovery of the semantic bound- 
aries of outsider art in the context of digital humanities. From the methodological 
point of view, the Outsider Art Project is organized around three tasks: collecting a 
corpus of outsider art, generating a large dataset of digital images about outsider art 
and building the first ontology of outsider art. 

Resumen: Este capitulo presenta el Proyecto de Arte Outsider. Los “outsiders” son 
artistas muy innovadores que han sido marginados estética y socialmente debido a 
su condición de pacientes psiquiátricos, personas sin hogar, reclusos, personas con 
discapacidad, migrantes y minorías étnicas. Debido a la necesidad de caracterizar el 
arte outsider de manera formal, este proyecto tiene como objetivo el descubrimien- 
to automático de los límites semánticos del arte Outsider en el contexto de las hu- 
manidades digitales. Desde el punto de vista metodológico, el Proyecto de Arte Out- 
sider se organiza en torno a tres tareas: recopilar un corpus sobre arte outsider, 
generar un gran conjunto de datos de imágenes digitales sobre arte outsider y con- 


struir la primera ontología del arte outsider. 
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1. Introduction 

The world of art and culture can be divided into mainstream art and outsider art. Outsider 
artists are highly creative people who have been marginalized because they have broken, 
in some way, whether intentionally or not, rightly or wrongly, with the cultural conven- 
tions, rules and codes established by a community. Hence, we are referring to people with 
some form of physical, intellectual, or psychiatric disability, members of minority groups 
and social misfits involved in any artistic activity. Outsider artists often employ obsessive 
and repetitive patterns to represent disturbing themes such as sex and violence through 
the use of unconventional materials. 

Outsider art is a concept that cannot be defined in absolute terms. The word was coined 
by Roger Cardinal in 1972 as an English equivalent for the term ‘art brut, which was creat- 
ed around 1945 by the French artist Jean Philippe Arthur Dubuffet. Dubuffet stated that 
Art Brut was free from all social and cultural constraints because outsider artists are unfa- 
miliar with the academic dogmas in which mainstream artists have been schooled. Accord- 
ing to Professor Colin Rhodes, “as a category construction, ‘art brut’ was meant to highlight 
a creative tributary that was not so much different in kind from mainstream art, but rath- 
er in its lack of self-censorship or interest in following art world fashions” (C. Rhodes, 
personal communication, December 8, 2020). Throughout its history, the term outsider 
art has been associated with very closed terms that focused on a specific dimension of the 
notion. For example, the term ‘naive art’ emphasizes the lack of formal training of some 
artists, ‘neuve invention is used to refer to subversive and inventive artists, and ‘self-taught 
art’ is a term which tries to avoid “the stigmas that some feel are attached to the Outsider 
Art definition” (Raw Vision magazine). Often, such definitions may end up in overlaps or 
even fall into circular reasoning: “Art Brut means ‘Raw Art” (Raw Vision magazine’) and 
“Outsider art is used to describe art that has a naive quality” (the Tate website's glossary’). 

In general, outsider art has always been the “other art”. For many in of the mainstream 
art community, outsider art is considered an “anti-intellectual’, “anti-professional” and 
“anti-academic” genre. Even, it is seen as “unsightly rubbish” by some art purists (Hernán- 
dez, 2014). A significant part of the artistic mainstream despises outsider art, partly because 
its creators are seen to exist outside established culture and society, and partly because they 
are artists with a disability or untrained artists. A prototypical example of an outsider 


artist is Rodd’. Rodó is a Latin American artist diagnosed with paranoid schizoaffective 


1 https://rawvision.com/ 
2 https://www.tate.org.uk/ 
3 The name “Rodó" is a pseudonym for the real identity of the artist. Outsiders wish to remain anonymous in 
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disorder. He emigrated to Barcelona (Spain) in the late 1990s, where he did not have an 
easy life: he slept on the streets and begged for money. When Rodó was a child, he enjoyed 
sculpting in clay and painting in oils. Nowadays, Rodó divides his time between his job as 
a cleaner and painting with watercolours. However, the truth is that despite his talent, Rodó 
has little hope of achieving fame. 

From the analytical point of view, understanding outsider art is a considerable chal- 
lenge, due to the large number of prejudices and misunderstandings surrounding the con- 
ceptualization of this artistic style. Although marginalization is a common trait of the ar- 
tistic and cultural worlds, the marginalization of outsiders is the rule. For example, abstract 
expressionism was a mainstream movement defined by the machismo of its most repre- 
sentative figures, Jackson Pollock and Willem de Kooning. The New York School - which 
represented the abstract expressionists in America — rejected the painter Robert Rauschen- 
berg for being gay and neglected the work of the American artist Lee Krasner for being a 
woman. Hans Hofmann once said, with regard to a painting by Krasner: “so good you 
would not know that it was done by a woman.” Therefore, if gender inequality is predicta- 
ble in mainstream art (Miller, 2016), then female outsider artists are discriminated against 
both because they are women and because they are outsiders. Indeed, there also seems to 
be a tendency towards the structural exclusion of women from the “canon” of outsider art. 
In a show organized by the Hayward Gallery featuring the most prolific outsiders of the 
last several decades, 91.3% were male and only 8.7% were female. However, what is particu- 
larly poignant for outsider artists is that some of them would not even consider themselves 
to be artists. An example is Barry Woo, who said the following when he was called an 
artist: “I thought I was just a 'schizophrenic”!”. 

In this chapter we present the Outsider Art Project, an innovative research project that 
applies digital technologies to the objective conceptualization of the artistic practices that 
lie outside the mainstream art world. Analysing outsider art by computational means is 
important for the characterization of a hermetic part of the world of creativity and, by 
extension, of society. From a scientific point of view, outsider art is an entry point for un- 
derstanding a number of complex and interdisciplinary issues such as the psychological 
relationship between art and disability (Pettinari, 2019), how cultural (sociological) prod- 
ucts are legitimated as art (Alexander & Bowler, 2021) and the philosophical role of artistic 


artefacts in the reproduction of power and domination in our society (Safina et al., 2020), 


a way that is similar to the street artist Bansky, for whom anonymity is vital because graffiti is illegal. In the 
case of outsider artists, anonymity protects them from social rejection. 


35 


Digital Humanities, Corpus and Language Technology 


among others. This project will provide a better understanding of an art often produced by 
people who are socially and culturally marginalized by assigning semantic meaning to huge 
amounts of textual and visual data. 

This chapter is organized in five sections, in addition to this introduction. Section 2 
discusses outsider art as a concept and describes its relationship to mainstream art. Section 3 
deals with two main problems affecting the state of the art of scientific production in out- 
sider art. Section 4 presents the methodological framework that we consider necessary to 
understand outsider art. Sections 5 and 6 briefly introduce the key resources with which 
we work: the corpus, ontology and dataset of images. Finally, Section 7, presents our con- 


clusions and summarizes the most salient points made in this chapter. 


Outsider Art, a Bargaining Chip for Contemporary Art 
Outsider art must be considered an extremely complex phenomenon in which different 
“levels of reality” are present simultaneously. There have been many attempts to define 
outsider art across the disciplines, though most of them have limited themselves to pre- 
senting personal views and concerns about the concept without providing empirical evi- 
dence or having a formal basis. For example, the New York Times journalist Roberta Smith 
(1996) attempted to define the concept as “a somewhat vague, catchall term for self-taught 
artists of any kind”. The critic, curator and writer Lyle Rexer (2005), in an attempt to char- 
acterize the confusing terminology around the term, defines outsider art as art “created 
under the conditions of a massively altered state of consciousness, product of an unquiet 
mind”. Ramon Almela (2006), Ph.D. in Art, talks of “art created outside of conventional 
circumstances”. David Davies (2009) proposed a theoretical characterization of the artistic 
status of outsider art on the basis of broader considerations regarding the philosophy of 
art. Jerry Saltz (2013) argues that outsider art does not exist at all, except as a discrimina- 
tory boundary preventing untrained artists from taking their rightful places in the canon. 
Linda Rainaldi (2015) later examined American and European perspectives on outsider art, 
focusing on biases, ideologies, and social factors, concluding that “I was no closer to artic- 
ulating one comprehensive definition of outsider art”. Rebecca Hoffman, director of the 
Outsider Art Fair, has her own, more general criteria: “I utilize the term ‘outsider art’ as an 
umbrella for a lot of different categories” (Acosta, 2015). 

The point here is that outsider art is culturally marginalized by mainstream art. Thus, 
while mainstream artistic styles (e.g., cubism, realism, baroque or abstract) are usually 


described on the basis of artistic criteria such as the use of the colour, shapes, space or 
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techniques, outsider styles are most frequently described on the basis of negative non-ar- 
tistic criteria such as the mental condition or the lack of training of the artist. In the cases 
in which aesthetic criteria were used, they tend to lead to a negative assessment of the works 
of art. Paradoxically, in spite of this, “outsiders” are considered to be highly innovative 
artists and the visibility of outsider art has increased dramatically in recent years. Even 
more paradoxical is the fact that mainstream artists have found inspiration in the work of 
their marginalized peers. 

As a result, there is an unhealthy relationship between mainstream art and other forms 
ofart. Experienced artists, such as Paul Klee, Wassily Kandinsky, Pablo Picasso, Jean Dubuf- 
fet, Max Ernst and André Breton, sought “inspiration” in the art of children, the art of 
“primitive” societies, the art of madness, mass culture and even in totally unintentional art 
such as that produced by animals. A well-documented story in this sense is that of the 
British zoologist Desmond Morris, who sold paintings by a chimpanzee named Congo to 
Salvador Dali, Pablo Picasso and Joan Miro. We also all know that Andy Warhol became a 
huge influence on popular culture by placing ordinary everyday items at the heart of his 
work. He said, “I don't think art should be only for the select few, I think it should be for 
the mass of the American people” With this in mind, Warhol turned art into a mass-pro- 
duced commodity and the artist into a brand name. Max Ernst, who abandoned his stud- 
ies in psychiatry at the University of Bonn for painting, was profoundly interested in the 
“art of the insane” as a way to access primal emotion. Ernst was probably responsible for 
bringing art brut into surrealism. Paul Klee wrote that “in our own time worlds have opened 
up which not everybody can see into, although they too are part of nature. Perhaps it’s 
really true that only children, madmen and savages see into them” (MacGregor J., 1989). 
Joan Miró also turned to “extra-cultural art” for inspiration, including children’s art and 
primitive and folk-art. Linda Ferrell (1983) states that “Miró has not only made use of a 
child's color scheme, but he has added the child's painting technique to the shapes and 
motifs he has chosen and to his use of space and line” Ferrell also argues that Jean Dubuf- 
fet's art shows a major influence from the art of children. Specifically, he used elements 
from the artwork of children in the dawning realism stage, which marks the transition 
between art as purely symbolic to art as a creative outlet. In the same vein, Heather Malin 
(2013) from Stanford University states that Wassily Kandinsky “gave special privilege to the 
lack of purpose in children’s art making” and, in an article published by Sharla Ackles from 


Colorado State University, she stated that: 
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Most of the artists who have been influenced by the art of the primitive have included the 
art of children as an influence. One of the artists who used children’s art as his main source 
of inspiration was Paul Klee. He had great respect and enthusiasm for the work of children 
(Ackles, 1988). 


The case of outsider art is paradigmatic in this regard because there are those who believe 
that outsider art has been used, reproduced and finally scrapped by mainstream art: “the 
mainstream appropriates artifacts as art but then insists that they occupy a marginal or 
degraded position” (Alexander & Bowler, 2021). As a result, there are mainstream artists who 
draw “inspiration” from outsider artists. For example, in Figure 1 we can see the similarities 
and coincidences between an illustration by the Spanish illustrator Ricardo Cavolo (Fig- 
ure 1a) and a serigraphy by the outsider artist Antonio Roseno de Lima (Figure 1b). Therefore, 
the demarcation line between both artistic styles, outsider and insider, in terms of their 
mutual influence can be difficult to define. Consider, for example, the case of the self-taught 
artist Jean-Michel Basquiat, who has been directly classified by some art historians as an 
outsider because of his use of found materials and the obsessive and repetitive use of symbols 
in his work. Others, however, find this idea disturbing because Basquiat's work sells for mil- 
lions. On the other hand, Jean Dubuffet, who was greatly inspired by the work of the outsid- 
er painter Adolf Wolfli, completely embraced this style. Along the same lines, but regarding 
the neural mechanisms regulating face and body perception in the work of the mainstream 
artist Francis Bacon, researchers on neuroaesthetics at University College London stated that 
“he [Bacon] subverted the normal neural representation of faces and bodies” (Zeki and Ishi- 
zu, 2013), leading to produce a “visual shock” in the spectator (see Figure 1c). We can observe 
a similar effect in the portraits of the outsider artist Jean-Marc Renault (see Figure 1d) who 
created “a dozen portraits of war victims who carry their physical deformation forever” 
(Chernetska, 2020). 

Apart from mainstream art, it is very surprising — or perhaps not - the extent to which 
outsider art shares some common visual traits with the art of children. Figure 2 shows how 
both an outsider artist and a four-year old boy represent a human figure. Aside from the 
differences related to age, for instance the fact that the child has not introduced a baseline 
to organize objects in space, both subjects share a common vision of some parts of the body 
such as the feet, knees, waist (belt buckle), chest (right pocket), hands in pockets or arms 
that are drawn close to the body and big eyes. Typically, the drawings of children and out- 
siders are self-portraits and may be a realistic portrayal or an idealized image. In the case 
of children, it is known that egocentric thinking plays a crucial role in the self-defining 


process of four-year old boys and girls. In the case of outsiders, psychologists state that a 


38 


Understanding Outsider Art in the context of Digital Humanities 


Figure 1. (a) Ricardo Cavolo's illustration (Cavolo, 2021). (b) Bebado, serigraphy by the outsider artist 
Antonio Roseno de Lima (Collection de l'Art Brut, undated). (c) Francis Bacon, Self-Portrait (Artnet'news, 
1969). (d) Jean-Marc Renault, Portrait no. 9 (Renault, 2018). 


“preoperational features such as egocentric thinking and perception-bound reasoning have 
been implicated in the association between schizotypy and creativity” (Winston et al., 


2014). 


Figure 2. Left: Painting by the outsider artist Daniel Saracho (Marginarte, 2019). Right: drawing by a four- 
year old boy (Marginarte, 2019). 
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3. State-of-the-art in Outsider Art 

Until now, outsider art has been analysed in the light of theoretical* but not computation- 
al models. According to the Scopus database, while 99% of the papers in computer science 
dealing with artistic styles are about mainstream art (e.g., pop, conceptual, abstract and 
street art), only 1% of papers are about outsider art. Thus, it is not uncommon to find 
papers on mainstream art describing a mathematical algorithm to produce abstract paint- 
ings (Spann, 2020), on applying optical techniques with the aim of identifying similarities 
and differences between the 17th century painting Madonna della Cesta by Rubens and a 
Piero Fevere tapestry (Dal Fovo, et al., 2020), on detecting the presence of graffiti art on 
building facades using Deep Learning models (Novack et al., 2020), or on generating pop 
art-like images from photographic images using binomial distribution methods (Hiraoka, 
2020), among many others. However, this does not occur with outsider art, where we can 
refer to only two works in computer science: Roberto & Davis (2020) and Roberto et al. 
(2020). We call this problem the computational gap. 

On the other hand, although there are no studies in this regard, there are reasons to 
think that less than 2% of the documents on outsider art are written in the first person. This 
is particularly strange considering that outsider artists are prone to expressing their feelings 
in writing. In contrast to outsider art, it is not uncommon to find papers on mainstream 
art written by artists in the first person. First-hand experience in fine art is a self-reflexive 
qualitative research method which foregrounds the artist’s subjectivity. By probing the 
“artist's intent” it is possible to improve different tasks such as the conservation of works 
of art: “it seems that the conservation field is opening up towards the use of writing in first 
person in art research” (Quabeck, 2021). The value of first-person texts for fine art experts 
is based on the generation of reliable knowledge by co-constructing (with the artists) in- 
stead of reconstructing the experience of the artist. Unfortunately, the co-construction of 
knowledge based on artists’ first-hand experience is not frequent in the research on out- 
sider art, probably because researchers do not consider the artists a reliable source of in- 
formation. We call this problem the data imbalance problem. 

It is therefore necessary to develop methodologies for describing outsider art based on 
objective and formal knowledge, such as those provided by processes like digitization, 


computation and the quantification of linguistic and graphic data. Natural Language Pro- 


4 For example, Baumann's general theory of artistic legitimation (Alexander & Bowler, 2021) or Bourdieu's 
conceptualization of disinterestedness (Ardery, 1997). 
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cessing and Machine Learning techniques play a significant role in this task. But first, it is 


necessary to define framework that support both approaches. 


Methodological Framework for Understanding Outsider Art 

The Outsider Art Project is being conducted within the framework of the digital humani- 
ties. However, there are two behaviours which, according to the critics, should be avoided 
in digital humanities projects. First, thinking that digital humanities is just “about intro- 
ducing digital technologies where there were none before” (Brennan, 2017) and, secondly, 
believing that it is possible to “reveal the secrets of complex social and cultural processes” 
through algorithmic computation. Therefore, we are considering digital humanities as a 
methodological framework in order to place outsider artists at the centre of the research 
and to promote the development of digital infrastructures for the computational process- 
ing of outsider art. Other aims, different to those already proposed, should be evaluated 
on the basis of social and cultural criteria by attending to the voices of multiple stakehold- 
ers and considering the complexity of the subject matter. The latter leads us to talk about 
the transdisciplinary and multimodal nature of the Outsider Art Project. 

According to different researchers such as Kemman (2019), “one of the defining char- 
acteristics of digital humanities is its emphasis on interdisciplinary collaboration” between 
disciplinary peers (research teams, faculties, laboratories and institutions). But describing 
digital humanities as interdisciplinary practices places limitations on our research. That is 
because of the possibility of collaborative work between scholars or “disciplinary peers” 
ruling out the voice of underprivileged and marginalized groups, including outsider artists 


(see “data imbalance problem” at Section 3). As Martin and Runyon (2016) recognise: 


‘The digital humanities represent, for many researchers, the potential for extending their 
research in terms of audience, scope, methods, and opportunity for interdisciplinary col- 
laboration. Ideally, this potential should also extend access to cultural engagement and 
preservation for marginalized groups. 


In order to overcome the limitations associated with interdisciplinary research, we consid- 
ered it more appropriate to adopt a transdisciplinary approach. Adopting a transdiscipli- 
nary approach can influence scientific agendas and change the dynamics of research by 
promoting the participation of disadvantaged actors. Indeed, it is clear that social actors 
other than researchers play a crucial role in transdisciplinary research. Transdisciplinary 
research occurs when academics and non-academics contribute their different expertise 


to understanding a problem holistically by developing a common intellectual framework 
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that goes beyond particular perspectives. Seeking the collaboration of researchers and 
non-academic actors in order to develop a common definition of a problem is a way to deal 
with the complexity of real-world problems such as those referring to cultural marginali- 
zation. Therefore, in contrast to those who emphasise the interdisciplinary nature of the 
digital humanities, we prefer to state that the digital humanities is a transdisciplinary field. 
This assertion is supported by bibliometric analyses such as those obtained by Yang et al. 
(2020) and Isemonger (2018). At the same time, one ought not to forget that in order to 
resolve real world or complex problems, transdisciplinarity places the emphasis on human- 
ities: “transdisciplinarity integrates the natural, social and health sciences in a humanities 
context, and transcends their traditional boundaries” (Choi, 2006). A transdisciplinary 
view of outsider art will enable us to make both societal and scientific advances by looking 
at a problem from many angles and by involving both academics and marginalized artists. 

In addition to the need to establish a transdisciplinary framework for the project, we 
are aware of the fact that understanding outsider art depends on analysing both textual and 
pictorial information. It is therefore necessary to have a multimodal model of semantics 
that makes it possible to link textual information with its real-world counterpart, (digital) 
cultural objects, and, as we shall see below, with emotional information too. This is not a 


new approach, there are a number of voices arguing in favour of “visual digital humanities”: 


Since there are several overlaps in epistemic cultures of visually oriented and digitally 
supported research in art and architectural history studies, museology, and archaeology, 
as well as cultural heritage, we introduce ‘visual digital humanities as novel ‘umbrella term 
to cover research approaches in the digital humanities that are dependent on both consum- 
ing and producing pictorial, rather than textual, information to answer their humanities 
research questions (Miinster and Terras, 2019). 


The multimodality of digital cultural information arises from external and internal factors 
from which outsider art is not exempt. First, this is due to the development of new Infor- 
mation and Communications Technologies (ICTs) for creating and linking textual and 
graphic information. There are many tools for creating digital exhibitions that allow experts 
to manage digital assets and create robust narratives and layouts for display online. For 
example, Contentdm and OmekaS are publishing platforms for institutions interested in 
connecting digital cultural heritage collections with other resources online. Digital tech- 
nologies for cultural heritage have demonstrated their value by offering a virtual space in 
which to build ideas collectively. Currently, different museums around the world are using 


a number of digital technologies that allow the users to add digital content to cultural 
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items. This is the case of the GIFT Box, a set of apps that allow visitors to add new digital 
content to a physical exhibit and ArchAIDES, a software that automatically identifies 
archaeological ceramic fragments pieces thereby allowing experts to enter textual descrip- 
tions about them. Obviously, this enormous amount of cultural data (texts, images and 
audio) needs to be interpreted and contextualized in order to be useful. 

The metaphorical meaning of cultural assets is the second reason to explain the multi- 
modal digital humanities. This metaphorical meaning emerges from the symbolic nature 
of feelings and emotions for both creators and viewers. On the one hand, cultural artefacts 
are made by creators to be beautiful but also to express an important idea or feeling while, 
on the other hand, viewers use their own experiences, views, and preferences to “under- 
stand” cultural artefacts. As a result, heritage materials tend to be embedded in narratives 
and analogies that can be interpreted by expert curators and interested lay persons. That 
motivates us to think that the semantic enrichment of outsider art collections must be based 
on models that integrate visual and emotional information, in addition to linguistic infor- 
mation. Empirical work on semantic processing has shown that integrating both forms of 
information together with linguistic information plays an important role in understanding 
semantic data. Rotaru and Vigliocco (2020) found that including visual and emotional 
information performs better to capture affective information than purely linguistic models 
based on distributional models of semantics, such as Latent Semantic Analysis (Landauer 
& Dumais, 1997). They are even more specific: “we found that including visual information 
is particularly beneficial to more concrete concepts, whereas including emotional infor- 
mation is particularly beneficial to more abstract concepts” (p.16). Similar results have been 
shared by De Deyne et al. (2018) and Ponari et al. (2018), among others. Therefore, we as- 
sume that in order to understand outsider art it is necessary to combine linguistic infor- 
mation derived from objective text corpora (e.g., scientific papers), visual information 
derived from image collections (e.g., the textual descriptions that typically accompany 
objects in digital collections), and emotional information derived from first-person texts 
by outsider artists. 

In this regard, it is important to emphasise that cultural artefacts are often enriched 
with and through linguistic information. Moreover, the way in which cultural heritage 
artefacts are represented and communicated has a significant impact on the way in which 


those artefacts are interpreted. A semiotic approach to the museum phenomenon consid- 


5 https://gifting.digital/ 
6 http://www.archaide.eu/ 
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ers museum objects as performing a social function, always enhanced by textual descrip- 
tions that contribute to the process of sign production and of sign interpretation. For ex- 
ample, museum catalogues are uniquely valuable sources because they encourage visitors 
to recover their freedom of decoding, while at the same time they function as a marketing 
tool that encourages people to come and buy cultural goods and may even confer addition- 
al value to a specific piece. Such publications must be capable of capturing the complexity 
ofan exhibit in a written text. Additionally, cultural heritage artefacts need to be digitised 
and labelled with metadata standards in order to be shared across different environments 
and domains. In other words, metadata standards enable intra-collection searches and also 
support cross-boundary access to collections. This provides an opportunity for users to 
interconnect the cultural heritage objects to contextual information and vice-versa. 

From our point of view, addressing the social, aesthetic and linguistic issues surround- 
ing outsider art requires an analysis of both texts and images by computational methods. 
That is because, in the world of the arts, visual and textual languages are two sides of the 
same coin. Therefore, in our project we are applying Natural Language Processing to the 
interpretation of texts on outsider art while applying Machine Learning to the analysis of 


paintings by outsider artists. 


Analysing Natural Language to Understand Outsider Art 

This project draws on Natural Language Processing and Computational Linguistics to 
understand how society perceives outsider art or, more specifically, how outsider art is 
conceptualised in scientific and popular writing. According to the Stanford Encyclopedia 
of Philosophy” “Computational Linguistics (CL) is the scientific and engineering discipline 
concerned with understanding written and spoken language from a computational per- 
spective, and building artefacts that usefully process and produce language, either in bulk 
or in a dialogue setting” Similarly, Natural Language Processing (NLP) is broadly defined 
as the automatic manipulation of natural language by software. Natural Language Process- 
ing and Computational Linguistics are helping us to understand outsider art by automat- 
ically capturing/enriching data with metadata and by transforming textual content into a 
computer-reliable format. In the Outsider Art Project, the first of these tasks has been 
tackled through the compilation of the outsider art corpus and the second task is current- 
ly being carried out through the development and implementation of the outsider art 


ontology. 


https://plato.stanford.edu/entries/computational-linguistics/ 
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5.1. The Outsider Art Corpus 

Collecting textual data about outsider art is the first step toward understanding this 
domain. Thanks to the explosion in the volume of machine-readable text and advances in 
available computing power, text corpora have become essential components of new devel- 
opments in computational linguistics from 1980 until the present. Corpus linguistics pro- 
vides a wealth of experience in dealing with language problems and also contribute to the 
understanding of specific domains. In both cases, the kind of data plays an important role 
in achieving research goals. In the case of the analysis of outsider art, we found it useful to 
make a distinction between primary and secondary data. 

In general, raw text is classified as primary data, while annotations of these primary 
texts are considered secondary data. However, considering that “the term ‘secondary’ sug- 
gests that the data provide indirect access to the research domain” (Østergaard & Torst, 
2017), we have adopted a broader vision of data types. So, primary data refers to those data 
that are collected directly from the source, in our case, first-person texts by outsider artists. 
In contrast, secondary data involve an existing document, which had previously been used 
by another researcher for a different research question. Secondary data often involve the 
interpretation of cultural artefacts and are distant from the time and place of the original 
artefact. An example of primary data with which we work is the illustrated novel entitled 
‘The History of My Life, the autobiographical narrative of the outsider artist Henry Darger. 
An example of secondary data is the book Henry Darger, in the realms of the possibly real, 
a biography of Darger by Jim Elledge. 

For this project, we decided to compile a large text corpus of secondary data for two 
main reasons: the lack of primary data and the difficulties of anonymizing it. Although 
there is a long tradition in cultural heritage of capturing primary data, this type of data is 
scarce in the field of outsider art (see Section 3). Therefore, while there are many books, 
catalogues, magazines, webpages and articles on outsider art written by experts, there are 
not many artists’ accounts of their own experiences captured through interviews or any 
other primary data collection method. Besides the problem of this lack of primary data, 
personal information on outsider artists should also be removed from primary data in 
order to reduce the risk of unnecessary information exposure to third parties. Encryption, 
pseudonymization and anonymization are methods for removing sensitive information 
from documents and are also known as de-identification methods. In Kacane (2021), an- 
onymization is performed by the interviewees themselves who were asked about their 
habits in attending museums. Automatic de-identification methods, in turn, are typically 


limited to a few common named entity types (e.g., a person’s name, hometown and work- 
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place) and “human supervision will still be needed for it to completely guarantee the an- 
onymization of the messages” (Helbrink & Akesson, 2020). However, the de-identification 
of fine-grained entities, such as the titles of artworks and nicknames, is of great importance 
for outsider artists. Therefore, it is necessary to seek ways to adjust sensitive personal data 
in such a way that it is no longer possible to identify the originating outsider artist before 
working with primary data. We assume that the fine-grained de-identification of personal 
information for research purposes involving marginalized groups is a pending task and 
this has a direct impact on corpus goals. 

We compiled the outsider art corpus with the goal of describing how society under- 
stands outsider art by identifying the patterns of language use in the target textual domain. 
Specifically, we are interested in discovering how outsider art is conceptualised in writings 
about art. Therefore, the question that the outsider art corpus must be capable of respond- 
ing to is: what are the terms/concepts and linguistic structures that characterise texts on 
outsider art? The outsider art corpus will be used as a silver standard for machine learning 
because it is (semi)automatically generated. Our aim is to use this corpus to train machine 
learning algorithms that are able to capture the main essentials of the outsider art knowl- 
edge domain: concepts and hierarchies. 

The outsider art corpus currently contains 981,868 words extracted from 450 docu- 
ments that have been collected by hand in order to ensure quality and relevance. The 
corpus includes English texts that talk about outsider art, art brut, folk art, naive art and 
self-taught art. We include three main text types or genres: artist bios, scientific articles 
(e.g., books and papers) and op-ed articles (e.g., art criticism and art press releases). The 
texts in this corpus had been obtained from web pages and documents in PDF format. 
Additionally, there is a set of texts coming from printed books consisting of excerpts of text 
under copyright law*. Every text in the corpus is stored within a separate XML file (in 
UTF-8 text encoding). Two main types of XML annotations were added to the outsider art 
corpus: meta-information about the document (e.g., author, genre’, if the text is an excerpt 
from a major work, theme/style’®, type of source and url) and information about the struc- 
ture of the document (e.g., paragraphs, sentences, titles and subtitles). 

In addition to the foregoing, a subset of 1,690 random sentences has been manually 
annotated with domain-specific terms belonging to three different semantic categories as 


shown in Table 1: (a) very typical outsider art terms, (b) terms that bear a relationship with 


8 Only a minor part (10%) of the total document has to be scanned in order to obtain the raw text. 
9 Artist bio, scientific article and op-ed article. 
10 Outsider art, art brut, folk art, naive art, self-taught art and autism. 


46 


5:2. 


11 


Understanding Outsider Art in the context of Digital Humanities 


the life and creative work of outsider artists, and (c) terms that include a wide range of 
specific entities not directly connected with outsider artists. We performed this task with 
CATMA * open-source software, which allowed us to define our own set of tag categories. 
Each annotation collection in CATMA is represented as one TEI XML file and terms can 
be retrieved by using a character offset (the position of the first letter and the last letter of 
the selected term). This subset of random sentences will be used as a gold standard domain 


model in order to establish a system for detecting outsider art terms automatically. 


Table 1. Examples of domain-specific terms. 


a. Yet, for outsider artists , who are self-taught , amateurish and reclusive , the usual rules don't 
apply. 

b. Born in 1891, Marino Auriti was an Italian-American self-taught artist . 

c. Roger Cardinal published a book in 1972 with this title. 


Finally, it is important to note that bias is an additional problem affecting secondary data 
related to outsider art. In our experience, language and gender are the most important 
factors influencing the process of the interpretation of outsider art. There is an overrep- 
resentation of English-speaking articles and European and North American regions in the 
literature on the subject. This is not only because English is the dominant language (lan- 
guage-based bias) but also because most featured artists were born in the United States or 
Europe (geography-based bias). In the same way, gender is one of the most prevalent bias- 
es in this domain since the featured artists are mostly male. Gender imbalance in the art 
world (see Section 2) has been documented by Bocart et al., 2017 and Cameron et al., 2017, 
among many other researchers. Therefore, factors causing bias have been controlled for 
where possible by applying existing methods such as those described by Wang et al. (2020) 


and Sun et al. (2019). 


The Outsider Art Ontology 

Capturing and codifying knowledge related to outsider art is the second step towards under- 
standing this domain. Therefore, an important task of the Outsider Art Project concerns 
encoding knowledge about outsider art in a machine-readable language or computational 
ontology. In computer science, an ontology is a linguistic/cognitive based representation of 


the concepts, relations, attributes and hierarchies that are present in a given domain of 


https://catma.de/ 
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knowledge. For example, in the expression “Adolf Wölfli was born in Bern” the term “Adolf 
Wolfli” is an instance of the category “outsider artist” and is linked to the word “Bern” (cap- 
ital of Switzerland) by the relation “was born in”. An ontology is filled with thousands of these 
relations, which makes it possible to draw complex inferences about the domain. 

Ontologies for cultural heritage are interdisciplinary artefacts since they describe objec- 
tive manifestations of the human mind, including customs, practices, places, objects, artistic 
expressions and values. There are a number of projects in Europe working to reduce the 
digital gap between the humanities and technology through the creation of ontologies and 
new metadata models for representing knowledge related to cultural heritage, including Eu- 
ropeana and POSTDATA (González-Blanco et al., 2018). Europeana is an authoritative re- 
pository of more than 58 million cultural and scientific heritage objects represented in the 
Europeana Data Model (EDM”), a metadata framework for the interoperability and stand- 
ardisation of cultural data. The EDM metadata standard contributes to the creation of new 
knowledge by incorporating semantic information from external resources located in differ- 
ent countries across Europe. The POSTDATA® (Poetry Standardization and Linked Open 
Data) project has as its main objective to provide a means to publish European poetry (EP) 
data as Linked Open Data (LOD) through the creation of a digital semantic web-based plat- 
form for poetry analysis and edition. Although there are several repertoires and databases 
that have the “poem” as object of study, they cannot communicate because they are not se- 
mantically interoperable. Therefore, POSTDATA applies a reverse engineering process by 
which the project team analyses the logical models of different databases in order to create a 
common conceptual model for all the existing ones. 

To the best of our knowledge, there has been no attempt to formalize knowledge about 
outsider art via a computational ontology or any other tool for terminological standardi- 
zation. Therefore, we are constructing the ontology of outsider art by assigning meaning 
to the large amount of relevant but scattered textual data stored in electronic form. Con- 
cretely, we are applying Natural Language Processing and Machine Learning techniques to 
the development of a machine-processable ontology in a semi-automatic fashion. It is 
important to point out that, when categorising aesthetic objects, the rule is to integrate 
several external resources. There are several examples of ontology integration in the cul- 
tural heritage field, including the Conservation Reasoning ontology (Moraitou et al., 2018) 


and the Heritage Building ontology (Tibaut et al., 2018). 


The Europeana Data Model for Cultural Heritage. 
https://postdata.linhd.uned.es/ 
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However, due to the heterogeneity of the concepts potentially associated with the out- 
sider art domain, we decided to build the ontology from scratch. Indeed, the outsider art 
ontology must deal with both the artistic/cultural and social issues associated with inequal- 
ity, mental disorders, physical disabilities, racial and ethnic origins and geographical/geo- 
political settings, among others. For example, as can be seen in Figure 3, Henry Joseph 
Darger is characterized by a set of artistic and non-artistic properties that depict him as an 
outsider artist (novelist, painter and draughtsman). Some of the artistic properties are “has 
exhibited in: collection de lart brut’, “creator of: the story of the vivian girls’, “use of mate- 
rials: recovered paper” and “deal theme sex: nudity”. Some non-artistic properties associat- 
ed with Darger are “worked as: janitor’, “enrolled in: mission of our lady of mercy’, “suffer 
mental condition: tourette syndrome’, “born place: chicago” and “featured by: john macgre- 
gor”. As can be seen in Figure 1, the central class in the ontology is the outsider artist, 
represented by the “Creator” category. This is one of the major differences with respect to 
other existing cultural heritage ontologies in which the collection or the artifact/object 


occupies a prominent position. 


In a basic sense, the main goal of the outsider art ontology is to contribute to the transfer 
of knowledge between different sectors and disciplines by standardizing the terminology 
associated with this artistic phenomenon. Additionally, this resource will be used to pre- 
serve and disseminate outsider art collections and to develop high-level software tools (e.g., 


systems that recommend outsider art assets to tourists). 


Analysing Images to Understand Outsider Art 

Digital images play an essential role in cultural heritage. Encoding the image features of 
paintings for classifying art styles automatically is a typical task in the field of the compu- 
tational analysis of visual aesthetics. A few datasets of fine-art images are commonly used 
to train automatic image classifiers but none of them are about outsider art. For example, 
Painting-91* (Khan et al., 2014) is a dataset consisting of digital paintings from 91 different 
painters including Picasso, Rubens and Kandinsky; ArtsooK*” (Mao et al., 2017) is a large- 
scale dataset containing over 500,000 artworks annotated with detailed artist labels; the 
Sculptures 6k Dataset of images (Arandjelovi¢ & Zisserman, 2011) consists of 6,340 sculp- 


tures by Henry Moore and Auguste Rodin collected from Flickr; the Museum of Modern 


http://www.cat.uab.cat/-joost/painting91.html. 
https://deepart.ust.hk/ART500K/art500k.html. 
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Individuals: Henry_Darger 


eo x 

@ hat 

@ hatred_of_authority 
@ Hawkins_Bolden 
@ health_issue 

@ hearse 

@ hebrew_bible 

@ Heinrich_Anton_Múller 
@ Heinz_Seelig 

@ Helen_LaFrance 

@ Helen_Mayfield 

@ helplessness 

@ Henri-Pierre_Roche 
@ Henri_Rousseau 
@ Henry_Ray_Ciark 
@ Henry_Speller 

@ Henry_Stockley 

@ hessian_fabric 

@ hickory_stick 

@ Hieronymus_Bosch 
@ hindu_mystic 

@ historical 

@ historical_account_and_chronicle 


@ historical_scene 


Dae & 


Description: Henry_Darger 


Types E) 


(0 ArtMaker 

O Male 

@ NaiveArt 

@ OutsiderArt 
@ RelatedPeople 
@ SelfTaughtArt 


Property assertions: Henry_Darger 


=m hasArtisticOccupation novelist_occupation 
a dealsWith Subject fantastic_creature 

= hasPersonalCondition self-abuse 

a hasPersonalCondition tourette_syndrome 
a hasArtisticOccupation painter_occupation 
= dealsWith Subject massacre 

=m dealsWith Subject popular_catholic_culture_and_iconography 
MSusesAsMedium old_magazine 

a hasArtisticOccupation fiction_writer_occupation 
@usesAsMedium catalogue 

A dealsWith Subject carnage 

=m dealsWith Subject terror 

EE hasPersonalCondition bad_behavior 

A dealsWith Subject child 

m= dealsWith Subject horror 

m dealsWith Subject fantasy 

= dealsWith Subject tranquil_flower_landscape 
m dealsWith Subject idyllic_scene 

= hasPersonalCondition stimming 

m hasArtisticOccupation drawer_occupation 
@@usesAsMedium watercolor 

= dealsWith Subject torture 

= hasPersonalCondition masturbation 

=m dealsWith Subject transgender 

m hasPersonalCondition feeble-minded_child 
Ea hasArtisticOccupation diarist_occupation 
a hasPersonalCondition orphan 


Data property assertions + 


= hasDateOfDeath 1973 
m hasDateOfBirth 1892 


Figure 3. Afragment of the outsider art ontology. 


Art (MoMA) dataset'* contains 15,236 records with basic metadata about all the artists who 
have work in the MoMA collection, although images must be requested separately via 


email; SemArt” is a collection with 21,384 digital paintings in which each image is associ- 


https://github.com/MuseumofModernArt/collection. 
http://noagarciad.com/Semart/. 
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ated to a textual artistic comment; ErgSap" is a visual art gallery application that contains 
almost 60,000 images of art work grouped by artist; the WikiArt” dataset contains over 
80,000 images of art work labeled across 27 varied art styles collected from WikiArt.org. 
As with primary data, there is an important lack of datasets on outsider art painting 
which would allow for research to be carried out on visual aesthetics based on machine 
learning approaches. To resolve this problem, we are preparing a large dataset of outsider 
art paintings. A first version of this dataset with 3,616 images was used in Roberto et al. 
(2020) to establish an initial approach to the automatic classification of digital images re- 
lated to outsider art. This limited version of the outsider art dataset merged 2,405 images 
labelled as Naive Art from WikiArt, a category that is considered to be very close to the 
outsider art style (Van Heddeghem, 2016, p.13) and 1,232 outsider art images collected from 
different sources. In the referenced paper, we addressed the question of whether it is pos- 
sible to classify different artistic styles by using Deep Learning methods. Preliminary results 
suggested that there are no significant differences between ten artistic styles, including 
outsider art. Additionally, we concluded that outsider art can be computationally modelled 
by objective means but it is necessary to dispose of a larger dataset in order to provide 
stronger and more robust assessments. For this reason, we are currently generating a large 
dataset with 10,000 images related to outsider art, folk art, naive art and art brut. Gener- 
ating a new dataset involves routine tasks such as collecting digital images via crawling and 
scanning, transforming images into digital format (if necessary), editing images and re- 
moving de-duplicates and noising images. These images are taken from social networks, 
non-governmental organization, museums, galleries, books and magazines, among other 


sources. 


Conclusion 

This chapter describes the main goals, the development status and the methodological 
details of the Outsider Art Project, which is being carried out at the ADAPT Centre of 
Dublin City University. We propose a transdisciplinary and multimodal framework for 
identifying and classifying the main concepts in the outsider art domain. We claim that, in 
order to properly understand this domain, it is necessary to analyse heterogeneous data 
including text and images, and to incorporate the voices of multiple stakeholder groups at 


different stages of the project. However, due to a lack of data for undertaking a computa- 


https://art.ergsap.com/downloads. 
https://github.com/lucasdavid/wikiart. 
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tional analysis of the domain, our efforts have mainly been aimed at collecting a corpus of 
texts about outsider art and a large dataset of digital images of outsider artworks. Addi- 
tionally, we are developing the first ontology of outsider art to standardize the terminology 
of the domain in order to enable semantic interoperability between heterogeneous meta- 
data and to examine the relationship between social exclusion and cultural artefacts. In 
general, the Outsider Art Project posits outsider art as an object of study of digital humanities 


by entailing the existence of a research niche merging art, technology and society. 
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La Biblioteca Virtual de la Filologia 
Espanola (BVFE) y su acervo 
hispanoamericano! 


The Biblioteca Virtual de la 
Filología Española (BVFE) and its 
Hispanic American heritage 


Jaime Peña Arce & M.* Ángeles García Aranda 
Universidad Complutense de Madrid - España 


A Manuel Alvar Ezquerra 


Resumen: El objetivo de este capítulo es doble. Por un lado, se da a conocer la Bi- 
blioteca Virtual de la Filología Española (BVFE), un portal que recoge una gran cantidad 
de obras lingúísticas relacionadas con el español, a las que proporciona un acceso 
libre y gratuito. Por otro, se indaga en el componente hispanoamericano de su acer- 
vo, con el propósito de recapacitar sobre lo que ya se ha hecho y sobre lo que queda 


por hacer. 


Abstract: The aim of this chapter is twofold. First, a presentation will be given of 
the Biblioteca Virtual de la Filología Española (BVFE), a portal that gathers numerous 
linguistic works on the Spanish language and provides free and open access to them. 
Secondly, it will examine the Latin American component of its heritage, with a view 


to reflecting on what has already been done and what remains to be done. 


Este trabajo se enmarca en el Proyecto de Investigación “Biblioteca Virtual de la Filología Española. Fase Ill: 
nuevas bibliotecas y nuevos registros. Información bibliográfica. Difusión de resultados” (FFI2017-82437-P), 
financiado por el Ministerio de Ciencia, Innovación y Universidades del Gobierno de España. 
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Introducción 

Las páginas siguientes están dedicadas a mostrar la riqueza y utilidad de un recurso en línea a 
través de parte de sus materiales. Por un lado, nos sirven para presentar la Biblioteca Virtual de 
la Filología Española (a partir de ahora, BVFE), un portal que atesora un sinfín de títulos —dic- 
cionarios, gramáticas, diálogos, ortografías y otros textos de contenido lingtiistico— relaciona- 
dos con la lengua castellana, muy reconocido ya entre la comunidad investigadora filológica a 
ambos lados del Atlántico. El 11 Congreso Internacional de Lingúística Computacional y de 
Corpus (CILCC 2020) y v Workshop en Procesamiento Automatizado de Textos y Corpus (WoPA- 
TeC 2020), celebrado en la ciudad colombiana de Medellín entre el 21 y el 23 de octubre del 
2020, nos dio la oportunidad de dar a conocer nuestra herramienta y sus recursos —aunque 
fuera de forma virtual, debido a las actuales condiciones de pandemia— a un amplio público, 
implicado en el estudio y en la descripción de la lengua de Cervantes, que aborda su trabajo 
desde las más variadas perspectivas que ofrece en la actualidad el panorama investigador. 

Por otro lado, los miembros de este equipo de trabajo consideramos que dicho encuen- 
tro, organizado y amparado por la Universidad de Antioquia (en colaboración con la neer- 
landesa Rijksuniversiteit Groningen), podía ser un buen pretexto para examinar el corpus 
de obras y autores hispanoamericanos incluido dentro de la BVFE, un componente funda- 
mental de nuestra herramienta. La construcción de este acervo es siempre una prioridad 
para nosotros, no en vano, el propio nombre de nuestro portal es un homenaje a una de 
las recopilaciones que más ha ayudado a los investigadores de Historiografía lingüística en 
el pasado, a saber, la Biblioteca histórica de la filología castellana, del Conde de la Viñaza 
(1978 [1893]), autor que también prestó una particular atención a la realidad lingúística del 
Nuevo Mundo en su Bibliografía española de lenguas indígenas de América (1892). Con 
estos antecedentes, el examen que contienen estas páginas resultaba más que obligado. 

La metodología que hemos empleado para la elaboración de este trabajo, gracias a las 
variadas opciones de búsqueda que ofrece nuestro sitio web (http://www.bvfe.es), es bas- 
tante sencilla. A partir de los parámetros autor, lugar de impresión, biblioteca en la que se 
conservan los ejemplares físicos e idioma, mostraremos la importancia cuantitativa y cua- 
litativa de la presencia hispanoamericana en la BVFE. Tanto el lugar de impresión como la 
biblioteca que atesora el ejemplar físico debían estar radicados en algún punto del conti- 


nente hispanoamericano; los idiomas, además de los trasplantados desde Europa (español, 


Los criterios seguidos para aceptar títulos dentro de nuestro portal son los siguientes: por un lado, se 
incluye toda obra de contenido lingüístico de cualquier autor español o natural de un país hispanohablante, 
con independencia del idioma que describa o estudie; por otro lado, se recoge todo texto que trate sobre la 
lengua española, al margen de la nacionalidad de su autor. 
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latín...), tenían ser los propios de las comunidades indígenas locales para ser tenidos en 
cuenta. Respecto a los autores, debían ser nacidos en algún rincón de los antiguos Virrei- 
natos españoles y actuales estados soberanos o haber realizado en aquellas tierras la mayor 
parte de su actividad científica; esta última ponderación resultó imprescindible por la fuer- 
te corriente migratoria que, con origen en la Península y destino a aquellas latitudes, ha 
existido en diferentes momentos de la historia. 

La estructura de estas páginas está en consonancia con el doble propósito del que ha- 
blábamos más arriba. En primer lugar, vamos a realizar una presentación general de la 
BVFE, atendiendo a sus orígenes y trayectoria, para finalizar con la presentación de sus 
actuales datos de impacto. En segundo término, nos centraremos en el análisis de su com- 
ponente hispanoamericano a partir de los parámetros ya señalados: lugar de impresión, 
biblioteca, idioma y autoría. Finalmente, se incluyen unas conclusiones que pretenden 
relacionar ambos bloques, con el objetivo de mostrar una perspectiva del acervo hispano- 
americano de la BVFE lo más completa y contextualizada que sea posible y reflexionar 
sobre el camino a seguir en el futuro. El capítulo se cierra con el desarrollo de las referencias 


bibliográficas traídas a colación a lo largo de esta investigación. 
2. La Biblioteca Virtual de la Filología Española (BVFE) 


2.1. Orígenes 
El origen de la BVFE hay que buscarlo en la idea que el profesor Manuel Alvar Ezquerra (1950- 
2020), de inolvidable memoria y uno de los investigadores más importantes que ha tenido la 
lengua española en fechas recientes, tuvo durante el segundo lustro del presente siglo. Su 
propósito inicial fue construir un catálogo que incluyera todos los repertorios lexicográficos 
del españo! y, simultáneamente, crear una biblioteca virtual que ordenara los materiales dis- 
ponibles en la red y garantizara su acceso de forma libre, gratuita y con las garantías de calidad 
de quien dedicó su vida al estudio de esta disciplina y de gran parte de sus títulos más impor- 
tantes. Esa primera pretensión pronto se amplió y terminó dando cabida a cualquier obra de 


contenido lingúístico relacionada con nuestro idioma‘. Asi, tras varios años de esfuerzos, y 


3 El trabajo que, a este respecto, se había realizado hasta aquel momento era bastante modesto. Además de 
obras de carácter más general (Esparza-Niederehe 1995, 1999 y 2005), solo existían una serie de aproxi- 
maciones sobre la dimensión de la producción lexicográfica de la lengua española realizadas en el ámbito 
académico italiano (Fabri 1979 y 2002; San Vicente 1995). 

4 Si se quiere saber más sobre la historia de la BVFE, consúltese: Alvar Ezquerra y Miró Domínguez (2013), 
Calero Hernández, Fernández de Gobeo y Peña Arce (2018), Cazorla Vivas y García Aranda (2018) y García 
Aranda y Peña Arce (2019). 
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gracias al trabajo de los miembros del equipo y los colaboradores —junto a las ayudas publicas 
captadas—,° la BVFE se abrió al público como parte de la biblioteca de la Universidad Com- 
plutense de Madrid (en adelante, BUCM), https://webs.ucm.es/BUCM/nebrija/, en el año 
2010. Desde entonces, la BVFE nos ha facilitado la investigación, pues los interesados en estas 
cuestiones tenemos acceso a numerosas obras sin tener que acudir a bibliotecas, sin tener que 
localizar ejemplares, sin tener que solicitar reproducciones y sin la necesidad de comparar 


catálogos, bibliografías y demás fuentes para comprobar si la información dada es fiable. 


2.2. Desarrollo 
El desarrollo, el crecimiento y la mejora que imponía la BVFE obligó a su cambio de ubi- 
cación, de manera que, desde el año 2014, nuestros materiales pueden consultarse en http:// 
www.bvfe.es, página web que mantiene, desarrolla y edita la empresa especializada Stilogo. 
Basta una comparativa cuantitativa para comprobar el trabajo llevado a cabo en este 
sentido en la BVFE: 


Tabla 1. Comparativa del n.° de registros entre la BUCM y la BVFE. 


BUCM (2010-2014) www.bvfe.es (2014-2020) 


* 2200 títulos lexicográficos * 4638 obras lexicográficas. 
* 3641 gramáticas y tratados gramaticales. 
* 626 ortografías y prosodias. 
* 430 diálogos. 


Total: 9335 registros 


El camino hasta llegar a la situación actual de la BVFE no ha sido fácil. Así, por ejemplo, 
los continuos cambios en las direcciones electrónicas de las obras digitalizadas obligan a 
una revisión permanente de los enlaces; el crecimiento exponencial de los libros digitali- 
zados también supone, por las necesidades de actualización, un reto importante; los erro- 
res en las informaciones bibliográficas de los catálogos y las bibliotecas exigen una inves- 
tigación concienzuda y la dificultad, por no decir la imposibilidad, de elaborar una lista 
completa y fiable de todas las obras lingüísticas del pasado nos obliga a replantearnos de 


forma constante nuestros objetivos y nuestra metodología de trabajo. A todos estos retos 


5 Esta herramienta se ha beneficiado de tres planes de ayuda del Gobierno de España: “Creación y desarrollo 
de la BVFE” (FFI2011-24107), “Biblioteca Virtual de la Filología Española. Fase Il. Consolidación, mejora y am- 
pliación de los datos y de la web. Estudio de los materiales contenidos” (FFI2014-53851-P) y “Biblioteca Virtual 
de la Filología Española. Fase Ill: nuevas bibliotecas y nuevos registros. Información bibliográfica. Difusión de 
resultados” (FFI2017-82437-P). 


58 


La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano 


y dificultades tratamos de buscar solución en nuestro quehacer cotidiano, en aras de la 

creación de un repositorio lo más completo que sea posible. 

La BVFE facilita el acceso a obras lingüísticas seleccionadas a partir de una serie de 
criterios (en español, sobre el español, compuestas en otras lenguas por autores españoles, 
bilingües con el español, multilingües con el español) y que son integradas en un servidor 
diseñado para esta biblioteca virtual (autor, título, datos de edición/impresión, enlace, len- 
guas, notas, parte de otra obra...). La forma de trabajar es sencilla: se buscan las obras a 
partir de una serie de palabras clave en los catálogos de bibliotecas y repositorios para 
obtener los ejemplares de las obras lingüísticas digitalizados en ellos y se cargan en una 
base de datos específicamente diseñada para ello, donde se ponen todos esos datos, y un 
comentario o aclaración que puedan ser útiles al usuario. Cuando se han comprobado 
todas las informaciones (que son correctas, que no hay duplicaciones, etc.), los registros se 
depositan en el servidor. El usuario puede recuperar los datos de la BVFE a partir de una 
serie de búsquedas que realiza en la web a partir de una serie de parámetros: 

+ En primer lugar, una búsqueda alfabética, seleccionando la letra inicial de la obra o tipo 
de texto que se desea localizar (gramática, tratado gramatical, ortografía, prosodia, no- 
menclatura, diccionario). 

+ En segundo lugar, una búsqueda sencilla en el buscador de la página principal, intro- 
duciendo el término de búsqueda. 

+ Y en tercer lugar, una búsqueda avanzada, en donde se pude filtrar por obra, fecha de pu- 


blicación, impresor, lugar de impresión, lenguas de publicación, periodo cronológico, etc. 


Y los resultados que arrojan estas búsquedas pueden, a su vez, ordenarse a partir de varios 
criterios, a saber: título ascendente/descendente, recientemente modificado, autor ascen- 
dente/descendente, fecha ascendente/descendente, impresor ascendente/descendente, 
lugar de impresión ascendente/descendente y biblioteca ascendente/descendente. Una vez 
finalizada la búsqueda y la ordenación, solo hay que pinchar en el título de la obra para 
acceder a los datos completos del registro (título, autor, ciudad y fecha de impresión, pági- 
nas que ocupa, procedencia del ejemplar digitalizado, signatura) y al ejemplar o a la ficha 
biobibliográfica del autor, de las que se habla en el párrafo siguiente. 

La BVFE se sirve de discos de alta gama NVMe que mejoran considerablemente el 
rendimiento y la eficiencia de las conexiones gracias a la rapidez de lectura y al aumento 
de ancho de banda, lo que se aprecia en una navegación ligera y dinámica. Alexa, la apli- 
cación sobre tráfico web, la sitúa en el ranking mundial (formado por más de 1800 millones 


de páginas web) en el puesto 2 421 083. 
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Para que la BVFE funcione correctamente son necesarios 1) un mantenimiento conti- 
nuo del software, 2) actualizaciones periddicas, 3) controlar las defensas de los ataques de 
robots y mecanismos que desean acceder de forma ilicita a ella, 4) mejoras constantes de 
la interfaz (por ejemplo, con su traduccion al inglés) y del motor de filtrado (parametros 
incluyentes y excluyentes en las búsquedas avanzadas; filtros de ordenación “ascendente/ 
descendente” de los resultados obtenidos en las búsquedas para todos los criterios utiliza- 
dos...), auditorías de seguridad y optimización para evitar ralentizaciones y bloqueos. 

Por otro lado, y desde la segunda fase o consolidación de la BVFE, esto es, desde finales 
del 2015, el corpus acopiado se ha enriquecido con la inclusión de las fichas biobibliográ- 
ficas de los autores cuyas obras recogemos (actualmente, 1917). Estas fichas se estructuran 
así: 1.9) los datos biográficos del autor y una breve reseña de su producción, 2.) la descrip- 
ción de su obra lingitistica, tanto de la incluida en la BVFE como de la que no se encuentra, 
3.2) las principales referencias bibliográficas y 4.) la firma del autor. En la actualidad, 
contamos con 911 fichas biobibliográficas, número que crece cada día gracias al trabajo de 
nuestros miembros y colaboradores. A continuación, se incluye un ejemplo del trabajo 


descrito en este párrafo: 


Guzmán, César C. (1840-1908) 


Detalles del registro 
Vida 


César Coronado Guzmán fue un filósofo, pedagogo y diplomático colombiano del siglo XIX. Se conocen pocos detalles sobre la vida de este 
autor. Nació en San Miguel de Guaduas (departamento de Cundinamarca, Colombia) en 1840. No se sabe nada sobre la calidad de su familia 
ni acerca de su proceso formativo, aunque cabe presuponerle estudios universitarios. Trabajó como profesor en instituciones educativas de 
todos los niveles —llegó a ser catedrático de Filosofía en la Universidad del Rosario (Bogota)— y también se implicó en la gestión educativa, 
pues en 1872 ejerció como director de instrucción pública primaria bajo las órdenes de Eustorgio Salgar Moreno (1831-1885, presidente de 
Colombia entre 1870 y 1872). Nuestro gauduense, de ideología liberal, fue nombrado cónsul en la ciudad francesa de Saint-Nazaire, desde 
donde, gracias a su perfecto conocimiento del francés, tradujo al español multitud de textos didácticos de diferentes materias, destinados 
todos ellos a la enseñanza primaria. Fue miembro correspondiente de la Academia Colombiana de la Lengua. Se ignora cómo transcurrieron 
los últimos años de su vida, así como el lugar donde la muerte lo sorprendió en 1908. 

El trabajo lingiiistico de nuestro protagonista se centró en la creación de manuales para la enseñanza primaria a partir de las obras del 
célebre gramático Andrés Bello (1781-1865), cuya propuesta ortográfica siempre respetó. Así, su Nuevo Compendio de la gramática castellana 
de Andrés Bello vio tres ediciones a finales del siglo XIX (1869, 1880 y 1889). Su Composición i gramática práctica para las escuelas primarias fue 
impreso originalmente de forma unitaria; solo después de su segunda edición, impresa en Francia en 1876 (Rouge, Dunon et Fresné, París), 
se creó un libro del profesor y otro del niño. Esta obra fue adaptada como libro de texto oficial en los colegios colombianos de la época. 


Figura 1. Ejemplo de una ficha biobibliográfica: vida de César Guzmán (Alvar, 2020). 
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Obra 


= Nuevo Compendio de la gramática castellana de Andrés Bello, tejado con la estensa de este académico por César C. Guzmán, Gaitán, Bogotá, 1869. 
= Composición i gramática práctica para las escuelas primarias, Gaitán, Bogotá, 1872. 


Bibliografía 


= Agudelo Gil, M.* Gladys, «La enseñanza de la gramática en Colombia: un asunto pluricontextual», comunicación presentada en el XVII Congreso 
Internacional de la Asociación de Lingüística y Filología de América Latina (ALFAL 2014), que tuvo lugar en la Universidad João Pessoa, en Paraíba, Brasil 
Hurtado, Jimena, «La Economía política en los estudios superiores en la segunda mitad del siglo XIX en Colombia. Ezequiel Rojas, sus influencias y 
programas», en A. Álvarez y J. S. Correa (comps.), Ideas y políticas económicas en Colombia durante el primer siglo republicano, Universidad de los 
Andes, Bogotá, 2016, págs. 35-68. 

Murillo Sandoval, Juan David, «De traducciones y migraciones: dos experiencias trasnacionales en la historia del libro en Colombia», en D. P. 
Guzmán Méndez, P. A. Marín Colorado, J. D. Murillo Sandoval y M. Á. Pineda Cupa (eds.), Lectores, editores y cultura impresa en Colombia. Siglos XVI- 
XXI, Centro Regional para el Fomento del Libro en América Latina y el Caribe-Fundación Universidad de Bogotá Jorge Tadeo Lozano, Bogotá, 2018, 
sin paginar. 


Jaime Peña Arce 


Figura 2. Ejemplo de una ficha biobibliográfica: obra de César Guzmán y referencias (Alvar, 2020). 


2.3. Datos actuales 

En la BVFE pueden consultarse registros digitalizados de la mayoría de las bibliotecas y 
repositorios españoles, europeos y extranjeros. Se han escrutado los catálogos de más de 
200 instituciones. Dentro de nuestra colección priman los títulos atesorados en diferentes 
bibliotecas —físicas o virtuales— de España: ya pertenezcan a la administración general 
del estado (la Biblioteca Nacional de España, la Biblioteca Virtual del Patrimonio Bibliográ- 
fico, Hispana, la Universidad Nacional de Educación a Distancia, la Real Academia Espa- 
ñola o las bibliotecas públicas estatales de las diferentes capitales provinciales), ya a las 
diferentes comunidades autónomas (Biblioteca de Catalunya, Biblioteca Valenciana, Biblio- 
teca Virtual de Andalucía, Biblioteca Virtual de Castilla y León...) o a sus universidades 
(Complutense de Madrid, Salamanca, Zaragoza, Sevilla, Granada, Barcelona, Valencia, 
Santiago de Compostela...), ya a colecciones privadas (Fundación Sancho el Sabio, en 
Vitoria, o Fundación Sierra Pambley, en León) o municipales (Biblioteca Histórica Muni- 
cipal, en Madrid). 

También contamos con las aportaciones de las bibliotecas nacionales más importantes 
de Europa (la Bibliothèque Nationale de France, la British Library, Bayerische Staatsbiblio- 
thek de Múnich, la Osterreichische Nationalbibliothek de Viena, la Národní Knihovna Ceské 
Republiky de Praga o las bibliotecas nacionales italianas de Florencia, Roma y Nápoles) y 
del mundo (Library of Congress, en Washington, la Biblioteca Nacional de Colombia, la 
Biblioteca Nacional de Chile...). Asimismo, hemos incorporado los registros pertinentes 
de las principales bibliotecas universitarias de Europa (Oxford University, Cambridge Uni- 


versity, Universiteitsbibliotheek Gent, Université de Toulouse, Universita degli Studi di Roma 
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“La Sapienza”...), de los Estados Unidos (Harvard University, University of Michigan, Uni- 
versity of California, The John Carter Brown Library, Brown University, Columbia Universi- 
ty...), Canada (University of Toronto), Hispanoamérica (Universidad Autónoma de Nuevo 
León, Universidad Nacional Autónoma de México...) o Australia (La Trobe University). 
Igualmente, recogemos las referencias depositadas en los más importantes repositorios 
virtuales, como Google books o Archive. En definitiva, estamos en condiciones de presumir 
de nuestro completo acervo, que recoge obras custodiadas por instituciones que van desde 
las más modestas, como el Instituto de Enseñanza Secundaria Alfonso X el Sabio, en Mur- 
cia, hasta las de primer nivel, como la New York Public Library. 

Más interesante es, si cabe, el balance que arroja la comparativa, en cuanto a número 
de visitantes, de los últimos años. Cifras que evidencian el interés y la confianza de los 


usuarios por la BVFES: 


Tabla 2. Datos de impacto de la BVFE. 


Año 2018 2019 2020 
N.° total de visitas 126 872 210 548 397 681 
Visitantes diarios distintos 69 004 81255 197 025 
Páginas vistas 1 043 598 7815 384 8 388 692 


España lidera la lista de países con mayor número de páginas vistas en estos años, seguida 
por los Estados Unidos, México, Francia, Alemania, Ecuador, Colombia, Argentina, Italia, 
Perú y Panamá. Cantidades que se convierten en un reto para seguir trabajando por la 
mejora y el crecimiento constantes de la BVFE. En cuanto a la posición de la BVFE en los 
resultados de búsquedas de Google Search, suele ocupar los primeros puestos al indagar 
sobre diccionarios de metáforas, palabras en rifeño, diccionario mallorquin-castellano, dic- 
cionario menorquín, diccionario de andalucismos, vocabulario quirúrgico, gramática analí- 
tica o diálogos españoles o al tratar de averiguar los datos biográficos de Ambrosio Calepi- 
no, Vicente Salvá, Esteban Pichardo, Carlos Felipe Beltrán, Pedro Marbán o Francisco de 
Paula Mellado. 

De todo ello, tanto de los nuevos registros como de las biografías de los autores y de las 
novedades en la web, damos puntual cuenta cada final de mes con un boletín de novedades 


al que cualquiera puede suscribirse desde la página de la BVFE. 


6 En los primeros meses de 2021, fecha en la que se escribe este trabajo, el número de visitas a páginas de la 
BVFE asciende a 38 011. 
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El componente hispanoamericano de la BVFE 
En los siguientes epígrafes vamos a descomponer el acervo hispanoamericano contenido 
en nuestro portal. Tal como anunciamos al inicio del capítulo, el orden en el que se va a 


llevar a cabo el estudio es este: lugar de impresión, biblioteca, idioma y autoría. 


Lugares de impresión 

Más de 1000 ejemplares de los incluidos en la BVFE han sido impresos en imprentas his- 
panoamericanas (un 11.60 % del total). La llegada de la imprenta a los virreinatos de la 
Nueva España y del Perú en época temprana (después llegaría a la Nueva Granada y al Río 


de la Plata) y su desarrollo posterior en todo el continente explican esta cifra. 


Tabla 3. Registros de la BVFE impresos en Hispanoamérica. 


Totales En Hispanoamérica 


9335 1083 (11.60 %) 


Los primeros textos impresos en estos talleres se deben a la labor de descripción realizada 
por los misioneros sobre las lenguas amerindias. El Vocabulario en la lengua castellana y 
mexicana de Alonso de Molina y el Arte de la lengua de Michuacán de Maturino Gilberti 
en el taller de Juan Pablos (1555 y 1558); el Arte en lengua zapoteca de Juan de Córdova, el 
Arte en lengua mixteca de Antonio de los Reyes y el Vocabulario en lengua misteca de 
Francisco de Alvarado en la imprenta de Pedro Balli (1578, 1593), o el Vocabulario manual 
de las lenguas castellana y mexicana de Pedro de Arenas en la imprenta de Henrico Martí- 
nez (1611) son buena muestra de la actividad en México. Por otro lado, el Arte y vocabulario 
en la lengua general del Perú llamada quichua de Alonso de Bárcena en el taller de Antonio 
Ricardo (1586), el Arte y gramática general de la lengua que corre en todo el reyno de Chile 
de Luis de Valdivia y la Gramática y arte nueua de la lengua general de todo el Perú de Diego 
González Holguín en la imprenta de Francisco del Canto (1606 y 1607) ilustran las produc- 
ciones textuales limeñas. 

Pero en estos primeros siglos no solo se publicaron obras misioneras, también hubo 
tiempo, dinero y dedicación para, entre otros, los Discursos de la antigiiedad de la lengua 
cántabra vascongada de Balthasar Echave (México, Henrico Martínez, 1607) o para la Or- 
tografía castellana de Mateo Alemán (México, Jerónimo Balli, 1609). 

Ahora bien, el siglo que más resultados de impresiones hispanoamericanas proporcio- 
na es el x1x. Durante esta centuria se publicaron en México, Chile, Perú, Argentina y Co- 


lombia numerosas obras lingüísticas que testimonian la riqueza y el interés del periodo 
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para la Historia de la lingúística, pues entre ellas se pueden encontrar aportaciones a dife- 
rentes disciplinas lingüísticas (semántica, sociolingüística, dialectología, gramática, lexi- 
cografía, ortografía, traducción, enseñanza de la lengua o lingüística misionera) desde otras 
tantas perspectivas, metodologías y corrientes teóricas (tradicional, normativa, racionalis- 
ta, general, lógica, historicista, didáctica...), lo que resulta una innegable contribución para 
la historia de la lengua española. Sirvan como muestra las que se citan a continuación: 

+ Diálogos (Diálogos de Juan Luis Vives, traducidos en lengua castellana por el doctor Cris- 
tóbal Coret y Peris, México, 1827). 

+ Ortografías y ortologías (De la ortografía México, 1847; Ortografía española acomodada 
a la pronunciación megicana México, 1851; Principios de la ortología y métrica de la len- 
gua castellana, Santiago de Chile, 1835; Acentuaciones viciosas, Santiago de Chile, 1887; 
Neógrafos kontemporáneos, Santiago de Chile, 1896; Ortografía fonética, Santiago de 
Chile, 1897; Ortografía castellana americana, Buenos Aires, 1876; Enseñanza de la lectu- 
ra y la logografía. Instrucciones para los maestros, Buenos Aires, 1887). 

+ Silabarios (Silabario de idioma mexicano México, 1849; Silabario de idioma mexicano, 
México, 1883). 

* Repertorios lexicográficos (Nuevo vocabulario filosófico- democrático, México, 1834; Dic- 
cionario de sinónimos castellanos México, 1845; Manual de voces equívocas sacadas del 
Diccionario de la lengua castellana México, 1848; Vocabulario del idioma comanche, Mé- 
xico, 1866; Diccionario etimológico de la lengua castellana (ensayo), México, 1877; Dic- 
cionario de dudas ortográficas formado con arreglo al último de la Real Academia, Méxi- 
co, 1881; Diccionario de mejicanismos, México, 1898; Diccionario para el pueblo, 
republicano, democrático, moral, político y filosófico, Lima, 1855; Neologismos y america- 
nismos, Lima, 1896; Diccionario hispano chileno, Santiago de Chile, 1846; Diccionario de 
chilenismos, Santiago de Chile, 1875; Diccionario filológico-comparado de la lengua cas- 
tellana, Buenos Aires, 1882; El lenguaje gauchesco, Buenos Aires, 1894; Minucias lexico- 
gráficas. Tata, tambo, poncho, chiripá, etc., Buenos Aires, 1896; La religión en el idioma. 
Ensayo paremiológico, Buenos Aires, 1899). 

+ Gramáticas (Elementos de gramática castellana para el uso de las escuelas México, 1843; 
Arte del idioma othomí, México, 1863, Compendio de gramática de la lengua española, 
según se habla en Méjico México, 1867; Epitome de la gramática de la lengua castellana, 
México, 1873; Gramática de la lengua castellana, compuesta por la Real Academia Espa- 
ñola, México, 1877; Estudios gramaticales sobre el “náhuatl”, México, 1887; Compendio 
de la gramática castellana para el uso de las escuelas de primeras letras del Perú, Lima, 


1836; Gramática de la lengua castellana, Lima, 1872; Gramática latina, Santiago de Chile, 
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1831, Gramática de la lengua chilena, Santiago de Chile, 1846; Gramática de la lengua 
castellana destinada al uso de los americanos, Santiago de Chile, 1847; Borrones grama- 
ticales, Santiago de Chile, 1894; Gramera berria, Buenos Aires, 1860; Arte de la lengua 
lule y toconoté, Buenos Aires, 1877). 

+ Métodos de enseñanza de segundas lenguas (Novísima gramática francesa, México, 1863; 
La clave del francés, México, 1886; El maestro de inglés, Lima, 1891; Lecciones de gramá- 


tica francesa, Santiago de Chile, 1829). 


En Colombia, país en el que se funda en 1894 la Imprenta Nacional en los talleres de los 
afamados Echavarría Hermanos,’ se imprimieron, entre otros muchos, unos Elementos de 
la gramática castellana y ortografía (1825), la Gramática y ortografía de la lengua castellana 
para uso de los niños en las escuelas de primeras letras del Departamento del Cauca (1826), 
La ortografía fijada en la Nueva Granada. Método perfeccionado de enseñanza para las 
primeras letras (1833), Nuevo epítome de gramática castellana (1843), Observaciones curiosas 
sobre lengua castellana (1848), Prontuario de ortografía de la lengua castellana (1850), Salvá 
reformado (1850), Diccionario ortográfico (1867), Apuntaciones críticas sobre el lenguaje 
bogotano (1867-1872), Gramática de la lengua latina para el uso de los que hablan castellano 
(1869), Análisis ideolójica de los tiempos de la conjugación castellana (1872), Gramática de 
la lengua castellana destinada al uso de los americanos (1874) o Ensayo de gramática hispa- 
no-goahiva (1895). 

Las razones expuestas explican que el país hispanoamericano que más textos suminis- 


tra a la BVFE sea México, seguido de Chile, Perú, Argentina, Colombia y Costa Rica:* 


7 Antes de esa fecha existían los talleres de Antonio Espinosa, de Salazar, de José A. Cuella, N. Gómez, de Fran- 
cisco Torres Amaya, Arnulfo Guarín, Foción Mantilla, la Imprenta de El Día, la Imprenta del Neogranadino, 
Imprenta del Tradicionalista, entre otros. 

8 Por ciudades, la distribución es la siguiente: Aguascalientes 1, Bogotá 71, Buenos Aires 92, Caracas 19, Cart- 
agena de Indias 3, Chiapas 8, Concepción (Chile) 4, Córdoba (Argentina) 2, Cuenca (Ecuador) 1, Cuernavaca 
(México) 7, Cuzco 8, Guadalajara 13, Guanajuato 3, Guatemala 2, Habana/La Habana 28, Iquitos 1, La Paz 
2, La Plata 8, La Victoria (Venezuela) 2, León (México) 1, Lima/Ciudad de los Reyes/Los Reyes 126, Matanzas 
6, Medellín 3, México/Méjico/México D. F. 383, Mérida de Yucatán 26, Monterrey 2, Montevideo 9, Morelia 
11, Oaxaca 6, Panamá 3, Ponce (Puerto Rico) 3, Puebla/Puebla de los Ángeles 23, Quito 3, Puerto Rico/San 
Juan de Puerto Rico 5, San Cristóbal de las Casas (México) 3, San José de Costa Rica 28, San Juan de los Lagos 
(México) 2, Santa Fe del Río (México) 1, Santiago/Santiago de Chile 124, Santiago de Cuba 1, Salta 1, Sucre/ 
Chuquisaca 5, Tegucigalpa 4, Toluca (México) 1, Valdivia 2, Valparaíso 12, Veracruz 1, Zacatecas 2. 
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Tabla 4. Registros hispanoamericanos de la BVFE por paises y ciudades (en %). 


Pais y ciudad Porcentajes % 
México 45% 
Ciudad de México 35% 
Chile 13% 
Santiago de Chile 11.5% 
Perú 12.5% 
Lima 11.5% 
Argentina 8.7% 
Buenos Aires 8.4% 
Colombia 6.8 % 
Bogotá 6.5% 
Costa Rica 2319 


3.2. Bibliotecas 


En cuanto a las bibliotecas en que se localizan los ejemplares de la BVFE hay que destacar 
la Biblioteca Nacional de Colombia (https://bibliotecanacional.gov.co/es-co). Fundada en 
1777 con una colección de los padres jesuitas expulsados de España, hoy constituye el fondo 
nacional hispanoamericano más importante para nuestro portal. Su página web, cómoda 
y sencilla; sus múltiples servicios para atender a todos los usuarios, y sus varias colecciones 
temáticas (corográfica, botánica, fondos especiales, bibliotecas digitales de autor, fondos 
gráficos, prensa del siglo xrx y hemeroteca digital) la convierten en un recurso útil y com- 
pleto. Tras él se encuentran los fondos nacional y general de México (que están albergados 
en la Universidad Nacional Autónoma de México, https: //www.bidi.unam.mx/), la Univer- 
sidad Autónoma de Nuevo León, https://www.dgb.uanl.mx/?mod=bdigital, y la Biblioteca 
Nacional de Chile (https://www.bibliotecanacional.gob.cl/). Muy por detrás se encuentran 
los fondos de Costa Rica (http://www.sinabi.go.cr/bibliotecas/biblioteca_nacional.aspx), 
Argentina (https: //www.bn.gov.ar), Perú (https://www.bnp.gob.pe) y Guatemala (http:// 
mcd.gob.gt/biblioteca-nacional/). 


Tabla 5. Registros de la BVFE en bibliotecas de Hispanoamérica. 


Totales En bibliotecas hispanoamericanas 


9335 539 (5.77 %)y? 


Los ejemplares digitalizados en bibliotecas hispanoamericanas son algunos más, pero todavía no están 
cargados en la web de la bvfe , pues están a falta de un estudio detallado de sus contenidos. 
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En la actualidad, y esperamos que sea una realidad que se subsane lo antes posible, la can- 
tidad de digitalizaciones de obras procedentes de bibliotecas de este hemisferio es notable- 
mente inferior al de otros territorios, como Europa o América del Norte. Por este motivo, 
las cifras ofrecidas en este epígrafe son más un motivo de reflexión que algo realmente 


orientativo. Sea como fuere, los datos desglosados por bibliotecas son los que siguen: 


Tabla 6. Registros de la BVFE en bibliotecas de Hispanoamérica (desglose). 


Biblioteca y número de ejemplares 


Biblioteca Nacional de Colombia 192 
Universidad Nacional Autónoma de México 118 
Universidad Autónoma de Nuevo León 103 
Biblioteca Nacional de Chile 60 
Biblioteca Nacional Miguel Obregón Lizano, Costa Rica 19 
Biblioteca Pública del Estado “Juan José Arreola”, Guadalajara 15 
Biblioteca Nacional Mariano Moreno de la República Argentina 10 
Biblioteca Nacional de Maestros, Buenos Aires 7 
Biblioteca Nacional del Perú 4 
Biblioteca Palafoxiana, Puebla 4 
Universidad de Chile 4 
El Colegio de México 1 
Universidad Francisco Marroquín, Guatemala 1 
Universidad Nacional de Colombia 1 


3.3. Lenguas amerindias 
Una de las mayores riquezas de la BVFE es el número y variedad de lenguas que atesora. 
De las más de 230 lenguas que están presentes en la BVFE, 110 se hablan o se han hablado 
en territorio hispanoamericano, y con ellas se han compuesto 1007 obras, esto es, un 


10.78 % del total de registros. 


Tabla 7. Registros de la BVFE de lenguas amerindias. 


Totales En bibliotecas hispanoamericanas 


9335 1007 (10.78 %)'° 


10 Los ejemplares digitalizados en bibliotecas hispanoamericanas son algunos más, pero todavía no están 
cargados en la web de la BVFE , pues están a falta de un estudio detallado de sus contenidos. 


67 


Digital Humanities, Corpus and Language Technology 


Destacan, en este sentido, los textos compuestos en náhuatl (135), quechua (79), mapuche 
(57), otomí (57), maya (35), tarasco (33), michoacano (28), cachi (28), purépecha (27), 
cachiquel (26), guaraní (26), quiché (24), zapoteco (24), cahita (21) y cabécar (20)”, que en 
su mayoría se utilizaron para componer textos correspondientes a la Lingüística misione- 
ra. En la BVFE no solo contamos con trabajos descriptivos sobre las lenguas amerindias 
mayoritarias, también atesoramos diccionarios y gramáticas sobre idiomas muy minorita- 
rios, como, por ejemplo, el cuna (Vocabulario castellano-cuna, de A. L. Pinart, publicado 
en 1890), la lengua propia de un pueblo que habita entre Panamá y Colombia, o el ixil (Arte 
y vocabulario de la lengua ixil, anónimo, post 1935), empleada en el noroeste del altiplano 


guatemalteco y perteneciente al tronco mayense. 


3.4, Autores y época 
El último parámetro manejado para describir el componente hispanoamericano en la 
BVFE es el de autores o fichas biobibliográficas. En este apartado se ha incluido a) autores 
cuyas sus obras traten sobre lenguas amerindias; b) autores, con independencia de su lugar 
de nacimiento, cuyas obras fueran imprimidas en ese continente, y c) autores nacidos en 
América, con independencia de la temática de sus obras. La BVFE cuenta con un total de 
1917 autores, de los que 911 cuenta actualmente con una ficha biobibliográfica; de ellos, 202 


cumplen los criterios antes mencionados (un 22 % sobre el total de autores ya estudiados). 


Tabla 8. Autores hispanoamericanos en la BVFE . 


Registros totales (autores) Registros con ficha Fichas de autores hispanoame- 
ricanos 
1917 911 202 


11 Alfabéticamente, las lenguas que han aportado registros a las BVFE son: achagua 2, aimara 18, allentiac 12, 
arasairi 1, atacameño 5, ayook 1, baure 3, biceita/viceyta 2, boruca 1, bribri 1, cabécar 20, cachi 28, cachiquel 
26, cahita 21, campa 3, caviñeno 2, chaima 3, chanabal 3, chiapaneca 3, chibcha 19, chilote 1, chinanteco 
1, chinchaisuyo 1, chiquito 5, chirripó 1, chol 6, choltí 5, coa 3, comanche 1, cora 3, cumanagoto 4, cuna 1, 
eudeve 1, guahibo 5, guaraní 26, guatuso 1, guaymíe 1, hegue 1, huasteco 14, ixil 1, kunza 1, lean 1, lenguas 
de México 23, lule 18, machiguenga 1, mam 12, mame 5, mapuche 57, matlatzinca 4, maya 35, mazahua 1, 
mazateco 1, michoacano 28, mixe 2, mixteco 10, mochica 1, mojo 19, morocosi 1, muisca 16, mulía 1, mutsun 
7, nahua 135, névome 3, ópata 1, orosí 1, otomí 57, páez 2, pame 1, paria 2, pima 3, pocoman 8, pocomchi 
4, popoluca 1, purépecha 27, quechua 79, quekchí 1, quiché 24, rusien (Canadá) 1, sáliba 1, setevo 1, siona 
1, sipibo 1, subinha 1, tacana 2, talamanca 1, tarahumara 6, tarasco 33, tatché 2, telamé 2, tepehuán 1, 
tepeguano 1, térraba 2, timucua 1, toba 2, totonacalpa 1, totonaco 1, tucurrique 1, tupí 17, tzeltal 7, tzendal 
7, tzotzil 4, tzutuhil 2, yaqui 1, yook 1, yunga 5, yupa 1, zapoteco 24, zend 9, zoque 8, zutunil 4. 


68 


La Biblioteca Virtual de la Filología Española (BVFE) y su acervo hispanoamericano 


En cuanto a la época en que estos autores desarrollaron su actividad, los datos reflejan, 
como era de esperar, un continuo crecimiento a medida que pasa el tiempo. De los ocho 


autores del siglo xvi se pasa a los 72 del siglo XIX. 


Tabla 9. Autores y siglos. 


Siglos Número de autores 
Siglo xvi 8 
Siglos xvi-xvil 10 
Siglo xvi 19 
Siglos xvil-xvill 4 
Siglos xvi 21 
Siglos xvill-xix fi 
Siglo xix 72 
Siglos xIx-xx 47 
Siglo xx 14 


En las primeras centurias destaca la presencia de misioneros de diferentes órdenes religiosas, 
mientras que en las últimas los protagonistas son prestigiosos lingüistas internacionales que 


desarrollaron su labor docente e investigadora o publicaron sus textos en sus países natales”. 


12 Algunos de los autores con fichas biobibliográficas y de los que, por tanto, tenemos noticia son alfabética- 
mente: Abeille, Luciano. xix-xx; Ágreda, Antonio de. xv; Agüero, Cristóbal de, O. P. xvii; Aguilera Patiño, Luisita, xx; 
Alvarado, Francisco de, O. P. xv-xv Amunátegui Aldunate, Miguel Luis. xix; Anchorena, José Dionisio. xix; Arenas, 
Pedro de. xvi; Arias de la Vega, Eusebio. xix; Armentia, fr. Nicolás. xx; Arroyo, Santiago. xvii-xıx; Aza, José Pio, O. 

P. xix-xx; Baralt, Luis A. xix-xx; Bárcena, Alonso de, S. I. xv; Basalenque, Diego, O. S. A. xvi; Bayo, Ciro. xix-xx; Bello, 
Andrés. xix; Belmar, Francisco. xix-xx; Beltrán de Santa Rosa María, Pedro, O. F. M. xvii; Bertonio, Ludovico, S. |. 
xı xvii; Botello Movellan, José Ceferino. xvi; C. F. B. xix} Caballero, Darío Julio. xx; Cáceres, José María. xix; Caro, 
Miguel Antonio. xix; Carochi, Horacio, S. |. xvi; Carricaburu, Alfredo. xix; Chimalpopocatl Galicia, Faustino. xix-xx; 
Chomé, Ignace, S. |. xvii; Ciudad Real, Antonio de, O. F. M. xvi-xvi; Company Company, Concepción. xx; Conto, 
César. xix; Córdova, Juan de, O. P. xvi; Cuervo, Rufino José, xix; Dávila Garibi, José Ignacio Paulino. xx; Espinosa, 
Juan. xix; Febrés, Andrés, S. I. xv; Fernández Garfias, Pedro. xix; Flores, Ildefonso José, O. F. M. xvi; Franco, José 
Félix. xix; Frías, Heriberto. xix; Fuentes, Ventura y Victor E. Francois. xix-xx; Galván, Mariano. xix; Gárate Arriola, 
Justo. xx; García del Río, Juan. xix; Gilberti, Maturino, O. F. M. xv; Gómez de la Maza, Manuel. xix-xx; González del 
Valle, Manuel. xix; González Holguín, Diego, S. |. xvi-xvil; Guerra, Juan, O. F. M. xvi; Gutiérrez, Rafael. xix; Henríquez 
Ureña, Pedro. xx; Herranz y Quirós, Diego Narciso. xvil-xix; Huerta, Alonso de. xvi-xvii; Lemos Ramírez, Gustavo. 
xviexix; León, Nicolas. xix-xx; Limardo, Ricardo Ovidio. xix; López Yepes, Joaquín, O. F. M. xix; Lugo, Bernardo de, 
O. P. xv; Machoni de Cerdeña, Antonio, S. |. xvii-xvil; Magdalena, Agustin de la, O. F. M. xv; Marroquín, José 
Manuel. xix; Matto de Turner, Clorinda. xix; Membreño, Alberto. xix-xx; Meneses y Gómez, Sabas. xix; Mesías, 
José Mercedes. xix; Mossi, Miguel Ángel. xix; Navarro, Manuel, O. F. M. xix-xx; Neve y Molina, Luis de, O. F. M. xvin; 
Obelar, Raimundo D. xix-xx; Oroz, Rodolfo. xx; Pareja, Francisco, O. F. M. xv-xv1 Peñafiel, Antonio. xix-xx; Pichardo 
y Tapia, Esteban. xix; Pinart, Alphonse Louis. xix; Pinilla, Norberto. xx; Ponce de León, Néstor. xix; Quesada, 
Ernesto. xix-xx; Rabanales O., Ambrosio. xx; Restrepo, Félix, S. |. xx; Reyes, Antonio de los, O. P. xvi; Reyes, Rincón, 
Antonio del, S. I. xvi; Rivera, Gregorio. xvixix; Rivodó, Baldomero. xix; Rojas, Arístides. xix; Rojo Mejía y Ocón, Juan. 
xvi; Rosales, Carlos Joseph, O. F. M. xvi; Ruz, Joaquín, O. F. M. xvixix; San Buenaventura, Gabriel de, O. F. M. xvi; 
Sarmiento, Domingo Faustino. xix; Suárez, José Bernardo. xix-xx; Suárez, José Bernardo. xix; Tangol, Nicasio. xx; 
Tellechea, Miguel, O. F. M. xvi-xix; Thiel, Bernardo Augusto, C. M. xix; Torres Rubio, Diego de, S. |. xvi-xvil; Torresa- 
no, fr. Estevan. xv; Uribe Uribe, Rafael. xix-xx; Uricoechea, Ezequiel. xix; Valdivia, Luis de, S. |. xvi-xvii; Velarde, Fer- 
nando. xix; Vetancurt, Agustín de, O. F. M. xvi; Vico, Domingo de, O. P. xvi; Vicuña Cifuentes, Julio. xix-xx; Villarreal, 
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Entre los primeros, ante la imposibilidad de nombrarlos a todos, queremos citar a Arenas, 
Ciudad Real, Córdova, Flores, Gilberti, Gonzalez Holguin, Neve y Molina, Rosales o Vico; 
entre los segundos, a Bello, Cuervo, Caro, García del Rio, Gómez de la Cortina, Marroquín, 
Obelar, Rojas, Sarmiento o a Lenz, quien cuenta con treinta registros en la BVFE actualizados 
los pasados meses (La oración y sus partes, estudios sobre el español de Chile, reflexiones 


sobre fonética y ortografía, ¿Para qué estudiamos gramática? o el papiamento). 


Conclusiones 

La BVFE es un proyecto consolidado, al que avalan sus once años de trayectoria, y líder en 
su ámbito, como atestiguan los datos sobre el número total de visitas o sobre las páginas 
visitadas. Su aportación a la sociedad del conocimiento fue reconocida el pasado mes de 
septiembre con la concesión del primer premio de la V Edición de los Premios de Trans- 
ferencia de Tecnología y de Conocimiento de la Universidad Complutense de Madrid 
(2020). Resulta justo decir que esta herramienta, nacida y desarrollada en España, no 
podría entenderse sin el componente hispanoamericano, al igual que le sucede al idioma 
que compartimos. Para corroborar esta afirmación, solo hace falta traer a colación unos 
cuantos datos que ya han sido apuntados más arriba: 

En primer lugar, según el lugar de impresión de las obras, ese componente hispano- 
americano alcanza al 11.60 % de nuestros registros. Dentro de los territorios de la América 
hispana destaca, respecto a la cuestión que nos ocupa, la zona septentrional de Mesoamé- 
rica, ocupada en el pasado por el Virreinato de la Nueva España y, desde comienzos del 
siglo xIx, por los Estados Unidos Mexicanos. Y en el seno del pais azteca, brillan con luz 
propia las prensas de la Ciudad de México, antaño capital del más importante virreinato 
del Nuevo Mundo y hoy del país con el mayor número de hispanohablantes del orbe. A 
continuación, y justo por encima del otro gran reino de las Indias españolas, el del Perú 
con capital en Lima, ocupan un lugar destacado las prensas chilenas —y, en particular, las 
santiaguinas—; realidad que se justifica por el proceso de digitalización de documentos 
llevado a cabo por las instituciones culturales de ese país del cono de Sudamérica. 

En segundo lugar, si hablamos del porcentaje de registros cuyo ejemplar físico corres- 
pondiente se custodia en una biblioteca de ese continente, el porcentaje asciende al 5.77 %. 
En este sentido y junto a la última alusión del párrafo anterior, cabe destacar en trabajo de 


la Biblioteca Nacional de Colombia y el de dos de las principales instituciones mexicanas 


Federico. xix-xx; Vingut, Francisco Javier. xix; Vivero, Luis Fernando. xix; Ybarra, Alejandro. xix-xx; Zambrano Bonilla, 
José. xvi. 
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de educación superior, la Universidad Nacional Autónoma de México y la Universidad 
Nacional Autónoma de Nuevo León. 

En tercer lugar, un 11 % de nuestros diccionarios, gramáticas u ortografías profundizan 
en el estudio y la descripción de alguna lengua amerindia. Y, como ha quedado dicho, no 
solo de las más extendidas, sino también de algunas de las más desconocidas. El quehacer 
de los lingúistas misioneros fue especialmente fructífero en las áreas de los grandes virrei- 
natos históricos: Nueva España —náhuatl (135), otomí (57), maya (35), tarasco (33) o mi- 
choacano— y Perú —quechua (79)—. El papel algo sobredimensionado de las lenguas 
amerindias chilenas —mapuche (57)— se debe a la ya mencionada (y muy completa) di- 
gitalización de las obras custodiadas en la Biblioteca Nacional de Chile. 

En cuarto lugar y para terminar, del total de autores ya estudiados y que poseen su ficha 
biobibliográfica, un 22 % proceden de esta región del planeta. Temporalmente hablando, y 
tal como ocurre con el conjunto de registros de nuestro portal (García y Peña, 2019, 126- 
130), una mayoría de ellos pueden radicarse en el siglo x1x y durante el primer tercio del 
xx. En este sentido, ese porcentaje se debe, fundamentalmente, a los trabajos realizados 
por alguno de los miembros del equipo de investigación, como Jaime Peña Arce y Leticia 
González Corrales, o por alguno de nuestros colaboradores, como Darío Rojas, Susana 
Serra Sepúlveda, Érika Moreno o Viviana Ávila. 

En definitiva, la Biblioteca Virtual de la Filología Española pretende dar soporte a cual- 
quier investigador, con independencia del lado del Atlántico en el que viva, y acercarle 
aquellos materiales que, geográficamente, le queden más alejados. El objetivo final es seguir 
trabajando juntos por el estudio y el cuidado de la lengua española y de todos aquellos 


autores que han ayudado a engrandecerla. 
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From two relational databases to 
an XML one. Project COMREGLA 
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Resumen: Esta contribución tiene como objetivo presentar las modificaciones y 
adaptaciones que hemos hecho a dos bases relacionales del proyecto REGLA (REc- 
ción y complementación en Griego Antiguo y Latín) cuyo foco se encuentra en el 
estudio de predicaciones verbales. El fin de estos cambios -que se enmarcan en el 
proyecto COMREGLA- es que la información contenida en ellas sea compatible con 
otras herramientas de tratamiento automático del lenguaje y que el análisis no sea 
solo de predicaciones nucleares y básicas, sino de textos completos. Para ello, se ha 
creado un estándar de notación nuevo que permite reflejar la riqueza de la informa- 
ción morfológica, sintáctica, semántica y léxica de las bases de datos originales, dar 
cuenta de la propia recursividad del lenguaje (en términos de posibles relaciones de 
estructuras) y enriquecer el análisis con etiquetas para componentes que no se es- 
tudiaban antes (complementación no obligatoria de la predicación expandida). 

Abstract: This paper aims to present the modifications made to two relational data- 
bases belonging to REGLA (Rección y complementación en Griego antiguo y Latín, 
Spanish acronym for Government and complementation in Ancient Greek and Latin), a 
research project centred on the study of verbal predications. This transformation, 
which is the main goal of the project COMREGLA, seeks to make the information 


stored in these databases compatible with other natural language processing tools, 
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as well as to expand their analysis beyond core and basic predications to cover the 
whole discourse. To do so, a new Standard for linguistic annotation has been devel- 
oped which not only enables the representation of the rich linguistic information on 
the source databases, but also allows for the recursive nature of language (under- 
stood as complex structures relations) and enriches the analysis with new data from 
elements not addressed hitherto, such as non-obligatory complementation within 


the expanded predication. 


Introducción 

El proyecto COMREGLA' tiene como objetivo hacer accesibles y compatibles con otros 
recursos digitales dos bases de datos relacionales que se concibieron para estudiar las 
estructuras predicativas de los verbos más frecuentes del griego antiguo y el latín. A raíz 
de la aparición de corpus anotados para estas dos lenguas a partir de los años 2000 y del 
nacimiento del proyecto Linking Latin (Passarotti et al., 2019), se ha hecho evidente la 
necesidad de abrir estas bases de datos y convertirlas en recursos accesibles y compatibles 
con otras herramientas disponibles de tratamiento automático del lenguaje. 

Esta transformación ha supuesto una serie de dificultades que están directamente re- 
lacionadas no solo con el tipo de información almacenada en las bases de datos originales, 
sino también con la naturaleza de la información recogida en los otros recursos con los 
que se pretende hacer compatible nuestra herramienta. 

En esta contribución, en primer lugar, presentaremos los datos contenidos en el recur- 
so de partida (es decir, en las bases de datos relacionales) y explicaremos algunas de las 
dificultades que entraña su adaptación para, acto seguido, describir cómo otros recursos 
existentes abordan estas cuestiones ($ 2). A continuación, especificaremos el marco teóri- 
co en el que se encuadra nuestro proyecto ($ 3), así como los aspectos metodológicos de la 
transformación de las bases de datos relacionales ($ 4). Por último, profundizaremos en la 
descripción de algunos problemas relativos al análisis de las formas nominales del verbo y 


en las soluciones dadas a estos ($ 5). Para finalizar, plantearemos unas conclusiones ($ 6). 


Financiado gracias a una Ayuda a equipos de investigación científica en Humanidades Digitales de la Fundación 
BBVA (convocatoria 2018). 
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2. Cuestiones preliminares. Presentación de los recursos de 
partida 
COMREGLA ha supuesto toda una renovación de nuestros recursos que ha desembocado 
en la creación de una nueva base de datos. A continuación, describiremos nuestro proyec- 
to de partida, REGLA, y otros proyectos similares que han servido de base teórico-técnica 


para el desarrollo de esta nueva herramienta. 


2.1. Nuestro proyecto: REGLA 
El grupo de investigación Rección y Complementación en Griego antiguo y Latín 
(REGLA), que es el inicio del actual proyecto COMREGLA, fue creado en 1992 por un 
grupo de investigadores de cuatro universidades españolas: U. Autónoma de Madrid, U. 
Complutense de Madrid, U. de Alcalá de Henares y la U. de Santiago de Compostela, al 
que se fueron incorporando otras como la U. de Salamanca y la U. de Oviedo. 

En los últimos años, el equipo ha estado trabajando en el desarrollo de dos bases de 
datos relacionales, REGLA-Griego y REGLA-Latín, que tienen como objetivo último ob- 
tener un repertorio lo más completo posible de los marcos predicativos (MP), esto es, los 
esquemas de complementación obligatoria de los verbos más frecuentes en griego antiguo 
y latín. Así pues, estas bases de datos han sido diseñadas para recoger, organizar y recupe- 
rar las apariciones de cada verbo en un corpus seleccionado, con su correspondiente aná- 
lisis sintáctico, semántico y léxico. 

A pesar de sus diversas transformaciones (cambio en la nomenclatura de los distintos 
proyectos financiados y en la configuración del equipo de trabajo)’, el objetivo del grupo 
ha sido siempre el estudio de la estructura oracional del griego antiguo y el latín y, en par- 
ticular, de los aspectos relacionados con la sintaxis y semántica de los constituyentes que 
la integran. 

Para ilustrar el tipo de análisis que recogen estas bases de datos, podemos observar la 


sección superior de una de las fichas del verbo appello nombrar, denominar en latín: 


2 En orden cronológico los proyectos concedidos son: Corpus y base de datos sobre la complementación. Un 
estudio lingüístico sobre el griego y el latín (CAM 06/0013/1999); Sintaxis y semántica de la complementación II 
(BFF2001-0135-C04); Corpus de rección y complementación en griego y latín (HUM2005-06622-C04); Corpus de 
rección y complementación en griego y latín II (FFI2009-13402-C04); Problemas de complementación en griego 
y latín (FFI2013-47357-C4); Interacción del léxico y la sintaxis en griego y latín (FFI2017-83310-C3). Como ante- 
cedentes de estos proyectos se pueden mencionar Las funciones nominales en Griego y en Latín: Tucídides y 
Cicerón (PS91-0014); Las unidades funcionales en la oración en griego y en latín (PB94-0197); Sintaxis, semántica y 
pragmática de la complementación (PB97-0005-C04), que desarrollaron las bases teóricas. En la actualidad, el 
proyecto vincula a más de una quincena de investigadores (entre profesores y alumnos de postgrado). 
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Texto Comentario Notas del Verbo 


Facit idem trita sepiae testa et per fistulam ter die oculo inspirata, facit et radix, 
quam Graeci oiAgiov uocant, uulgus autem nostra consuetudine /aserpitium appellat 


Autor: Colum. Obra: 6,17,8 


mp:  [AT(Act:AgentiHum)]a[A2(Afec)(Concr)Ja[A3(Afec)(Pal)] 


cme 


Figura 1. Ejemplo parcial de una ficha en la base de datos REGLA. 


Aqui tenemos parte del texto recogido en la ficha de la Figura 1. 


Ejemplo (1). 
radix, quam Graeci olAptov uocant, uulgus 
raiZNOM.SG REL.AC.SG griegOsNoM.PL. silfioAc.sG llaman vulgonom.sG 
autem nostra consuetudine laserpitium appellat 
PART nuestraaBL.sG tradici6naBL.sc laserpicioAc.sG denomina 


“la raíz que los griegos llaman silfio; el vulgo, en cambio, según nuestra tradición, la denomina /aserpicio” (Colum. 
6.17.8) 


En concreto, en esta ficha se analiza la predicación uulgus autem nostra consuetudine laser- 
pitium appellat, traducida como “el vulgo, en cambio, según nuestra tradición, la denomi- 
na laserpicio”, y se recoge la estructura argumental del verbo appello. Así pues, los elemen- 
tos destacados en verde, esto es, uulgus y laserpitium, se identifican con los elementos 
obligatorios —y, nótese bien, explícitos- de la predicación de este verbo. En la ficha se 
recoge también la formalización del análisis del verbo en este pasaje en la casilla MP, donde 
se nos indica que en esta construcción appello cuenta en realidad con los siguientes cons- 
tituyentes obligatorios (dos explícitos y uno elíptico contextual): un Argumento 1 
Actor-Agente tipificado como /+humano/ (uulgus); un Argumento 2 Afectado /+concreto/ 
(elíptico contextual) y un Argumento 3 Afectado con la caracterización léxica /+palabras/ 
(laserpitium). 

A pesar de que los datos consignados en estas bases de datos son de bastante calidad, 
puesto que los análisis han sido llevados a cabo por miembros del equipo de investigación 
con formación en lingüística y en griego y latín, esta forma de organizar y almacenar los 


datos ha resultado no ser del todo efectiva, ya que plantea, sobre todo, dos dificultades: 
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i Incapacidad de dar cuenta del carácter recursivo del lenguaje. Cuando un constituyen- 
te de la oración forma, a su vez, una estructura predicativa propia (por ejemplo, otra 
oración), no se puede abordar el análisis de manera conjunta, sino que cada elemento 
predicativo ha de analizarse en una ficha diferente. En el ejemplo (1), el análisis de la 
oración de relativo (quam Graeci cihgiov uocant ‘que los griegos llaman silfio”) no se 
puede poner en relación con el de la oración principal en la que se integra. 

ii Limitación del análisis a constituyentes centrales de la predicación. Por esta razón, un 
sintagma como nostra consuetudine ‘según nuestra tradición (ejemplo 1), que funciona 
como un disjunto (esto es, un elemento que trasciende el ámbito de la predicación), 


queda fuera del ámbito de análisis en REGLA. 


Identificar estas dos cuestiones problemáticas y darles una solución satisfactoria ha sido 
clave para cumplir con una parte crucial del proyecto COMREGLA, como es el hacer 
compatible los datos disponibles en REGLA con otras herramientas y recursos dedicados 


a las lenguas que nos ocupan. 


. Otros proyectos 


De cara a resolver los tres problemas descritos, uno de los primeros pasos ha sido compro- 
bar de qué manera se abordaban en otros treebanks con anotación semántica y sintáctica, 
especialmente los dedicados a las lenguas clásicas, como PROTEL (Haug  Johndal, 2008), 
el Index Thomisticus Treebank (ITTB; Passarotti, 2009) y el Ancient Greek and Latin 
Dependency Treebank (AGLDT; Bamman & Crane, 2011). 

La primera de las tres herramientas se sirve del etiquetado morfológico de Universal 
Dependencies para el análisis sintáctico de textos con el objetivo de presentar de forma 
arbórea las distintas dependencias de un predicado; este sistema es aplicado a un pequeño 
corpus de obras latinas y griegas, entre otras lenguas. 

El ITTB, por su parte, surge de uno de los proyectos pioneros en lingúística computa- 
cional, el Index Thomisticus. Su objetivo inicial era la anotación morfológica de las obras 
de Tomás de Aquino. Con todo, desde hace algunos años se ha ampliado el corpus con 
autores clásicos latinos, se ha comenzado a anotar también información sintáctica y se- 
mántica y se ha añadido un léxico de valencias basándose en el marco teórico desarrollado 


por el Prague Dependency Treebank, aunque con ciertas adaptaciones. 
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Por ultimo, el AGLDT, de la Universidad de Leipzig, ofrece una recopilacion de textos 
griegos y latinos de distintos géneros y épocas usando también el etiquetado de dependen- 
cias sintácticas del Prague Dependency Treebank’. 

Los treebanks citados ofrecen el análisis de obras completas, por lo que se han tenido 
que enfrentar a los problemas que planteábamos en el punto anterior: el análisis de estruc- 
turas complejas de subordinación y coordinación con sus propias funciones y la anotación 
de complementos no centrales. El análisis de estructuras complejas está resuelto por estos 
treebanks; sin embargo, no permiten un análisis tan pormenorizado como el que se ofrece 
en REGLA, que contempla más categorías y depura mucho más los datos*. La transforma- 
ción directa al formato de uno de estos treebanks habría supuesto, por lo tanto, una pérdi- 
da de información de la base de datos de partida, razón por la que no se ha llevado a cabo. 
Con todo, sí resultó útil la observación y el conocimiento de los treebanks mencionados 
para comprobar cómo se anotaban los constituyentes no centrales de la predicación, que, 
en general, reciben etiquetas distintas para marcar su relación sintáctica y semántica menos 


estrecha con la predicación. 


3. Marco teórico 

Para explicar por qué el análisis preexistente en las bases de datos relacionales de REGLA 
es más preciso y no puede ser transformado directamente al formato usado por otros 
treebanks es necesario mencionar que nuestras bases de datos tienen como principal fun- 
damento teórico la Gramática Funcional de S. Dik (1997). Este modelo se ha aplicado con 
notable éxito al estudio tanto del latín como del griego. Cabe destacar en esta línea el tra- 
bajo de Pinkster para el latín (2015; 2021) y los desarrollados por los miembros de REGLA 
tanto para el latín como para el griego (p. ej., Baños et al., 2003; Torrego et al., 2007; Baños, 
2009; Jiménez López, 2020). 

En concreto, es fundamental tener en cuenta el concepto de predicación y de MP (Dik, 
1997, p.78ss; de la Villa, 2003) para comprender el desarrollo de la base de datos REGLA. 
El primero hace referencia a una estructura sintáctico-semántica formada por un verbo y 


los elementos que de él dependen, tanto si son obligatorios como si no. El segundo es el 


3 Cabe mencionar además la existencia de algunos léxicos de valencias, herramientas que recogen bien la 
estructura sintáctica de los verbos, como el Homeric Dependency Lexicon para las obras homéricas (que anota 
según los parámetros teóricos sintácticos del Prague Dependency Treebank) o el IT-VaLex para la obra de 
Tomás de Aquino, bien su estructura semántica, como el Latin Vallex (desarrollado a partir de la anotación 
semántica del Index Thomisticus Treebank). 

4 Algo similar ocurre con los léxicos de valencias de acceso abierto que, a pesar de la valiosa información que 
comparten, no aportan una tan detallada y completa como la que contiene REGLA. 
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esquema de complementación obligatoria de un verbo. Este estudio de los MP es, en últi- 
ma instancia, el responsable de que el interés de la base de datos previa se haya centrado 
sobre la complementación obligatoria y haya dejado de lado el análisis exhaustivo de todos 
los elementos de la predicación y la oración. 

Esta perspectiva funcionalista se ha enriquecido a lo largo de los años con aportaciones 
de otros marcos teóricos afines como la Gramática Cognitiva (Langacker, 2008) o la Gra- 
mática de las Construcciones (Goldberg, 1995), así como con otras teorías funcionalistas 
posteriores a las de Dik, como la Gramática del Papel y la Referencia (Van Valin & LaPolla, 
1997) y la Gramática Funcional del Discurso (Hengeveld & Mackenzie, 2008). Todas estas 
perspectivas comparten una visión de la lengua en la que priman la función comunicativa 


del lenguaje y el uso en contexto por encima de cuestiones puramente formales. 


4. Aspectos metodológicos 
Con el fin de hacer compatibles las bases de datos REGLA-Griego y REGLA-Latín con 
otras herramientas de procesamiento del lenguaje natural, era necesario hacer una migra- 
ción de las dos bases de datos relacionales a una base de datos XML, COMREGLA, lo que 
supone un cambio estructural de gran calado, puesto que las formas de almacenamiento 
de la información son muy diferentes. 

En un primer momento, tomamos como modelo un standard XML ya existente para 
el análisis sintáctico y semántico necesario en la creación de treebanks, el Prague Markup 
Language (PML), un sistema de marcado desarrollado para el Prague Dependency Treebank 
y que ya ha sido aplicado al latín en el ITTB, entre otros recursos (cf. $ 2.2). 

A grandes rasgos, el PML es un marcaje stand-off que se articula en cuatro capas o 
niveles de análisis: tokens o nivel words, morfología o nivel morfológico, análisis sintáctico 
o nivel analítico y análisis semántico-pragmático o nivel tectogramatical. No obstante, tal 
y como hemos mencionado ($ 2.2), no resultó ser del todo compatible con el tipo de infor- 
mación que se almacena en nuestras bases de datos relacionales. En efecto, si bien hasta el 
nivel morfológico el PML se adecúa correctamente al tipo de información de REGLA, en 
el nivel sintáctico y semántico, sigue preceptos teóricos diferentes a los que sustentan nues- 
tro proyecto’. Por otra parte, PML resulta insuficiente para reflejar determinada informa- 


ción sintáctica y semántica que se tiene en cuenta en REGLA (como es el caso de las ca- 


5 Por ejemplo, el PML distingue entre argumentos y adjuntos obligatorios, mientras que en COMREGLA los 
adjuntos son por definición constituyentes opcionales determinados por el predicado. 
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racterísticas semánticas de las predicaciones en su conjunto, cuando son componentes de 
una principal). 

Así las cosas, decidimos que los elementos de la base de datos COMREGLA estarían 
anotados mediante un sistema propio de etiquetas XML que se ajustara lo más posible a 
los campos de las bases de datos relacionales de REGLA. Este sistema de etiquetas se basa 
en buena medida en el PML, pero también en otros sistemas de gramática de dependencias, 
como PROIEL. 

Las bases de datos de REGLA contienen cuatro tipos de información lingúística: mor- 
fológica, sintáctica, semántica y léxica. Esta información se ha redistribuido, como se ob- 
serva en la tabla 1, en dos niveles stand-off: WORDS, en el que se recoge la forma y el lema 
de cada palabra del texto, así como su información morfológica, y CLAUSES, que es de 
mayor complejidad, en el que se explicitan los rasgos léxicos de las unidades lingüísticas, 
las relaciones sintácticas y semánticas que se establecen entre ellas y las jerarquías de es- 


tructuras sintácticas en las que se insertan. 


Tabla 1. Distribución de la información lingüística en los nuevos niveles. 


WORDS CLAUSES 


Morfología Forma y lema - 
Características 
morfológicas 


Sintaxis - Palabras (worps) < Predicaciones (clauses) < Oraciones (SENTENCES) 
Relaciones sintácticas (dependencias, funciones sintácticas, etc.) 
* entre las palabras de una oración, 
* entre las predicaciones que conforman una oración 


Semántica - Características semánticas 
e delas relaciones (funciones semánticas, tipos de subordinación, 
etc.), 
* delas predicaciones (polaridad, diátesis, fuerza ilocutiva, control, 
aspecto léxico, etc.) 


Léxico - Rasgos léxicos 


Los aspectos sintácticos que se recogen en la capa CLAUSES parten de la división del texto 
en unidades. Todo texto se compone de palabras y otros tokens como la puntuación, núme- 
ros, etc., que constituyen la forma más básica (worps). Las unidades básicas comprendidas 
entre puntuación fuerte forman oraciones (SENTENCES). Entre ambas unidades se sitúa la 
unidad lingúística que para nosotros es central: las predicaciones (CLAUSES), que es, como 


se dijo en $ 3, la unidad de análisis fundamental de las bases de datos relacionales de 
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REGLA. Una vez determinadas las unidades sintacticas, establecemos las relaciones entre 
estas unidades, tanto de las palabras entre si, como de las predicaciones u oraciones. 

Asimismo, las relaciones entre las unidades sintácticas tienen una dimensión semánti- 
ca, para lo que se consignan, por ejemplo, las funciones semánticas, que definen el tipo de 
relación entre el verbo y sus elementos (Agente, Paciente, Beneficiario, etc.) o los tipos de 
subordinación (completiva, condicional, concesiva, etc.). Además, las propias predicacio- 
nes tienen ciertas características semánticas que les son propias, como pueden ser la pola- 
ridad, la diátesis, la fuerza ilocutiva o el aspecto léxico. Por último, se anota la información 
sobre el léxico de los elementos que funcionan como participantes en la oración. 

Como se ha ilustrado anteriormente, en las bases de datos relacionales se analizan 
fragmentos sueltos sin conexión entre ellos, elegidos solamente con el fin de analizar los 
MP de ciertos verbos. En la nueva base de datos, en cambio, las oraciones se encontrarán 
en su contexto, ya que se analizan textos completos. Comparemos el análisis del ejemplo 
(1) en REGLA (Figura 1) con la forma que presenta el mismo ejemplo en la base de datos 
COMREGLA. En la capa WORDS, como se ha mencionado ya, aparece la información 
morfológica de cada palabra. Así, como se puede observar en la tabla 2, de la palabra radix 
“raíz, por ejemplo, se recogerá el tipo de palabra (sustantivo), la declinación (3* declina- 
ción), el caso, el número y el género. Para el verbo uocant llaman, se incluirán datos como 


la conjugación, el tiempo, el modo, la voz, la persona y el número. 


Tabla 2. Análisis del ejemplo (1) en COMREGLA. 


radix quam Graeci oiAptov uocant uulgus autem nostra consue- laserpi- appellat 
tudine tium 
Sust. Pron. Sust. Sust. Verbo Sust. Indecl. Det. Sust. Sust. Verbo 
3* decl. Acus. 2? decl.  2*%decl. 1%conj. 2? decl. Abl. 3? decl. 2? dec. 1? conj. 
Nom. Sg. Nom. Acus. Pres. Nom. Sg. Abl. Acus. Pres. 
Sg. Fem. PI. Sg. Ind. Sg. Fem. Sg. Sg. Ind. 
Fem. Masc. Fem. Act. Neutr. Fem. Neutr. Act. 
3 pers. 3 pers. 
PI. Sg. 


En la capa CLAUSES, por su parte, se muestran las relaciones entre las palabras dentro de 
las predicaciones y entre las predicaciones entre sí. Dado que, como se ha visto antes, el 
verbo es generalmente el núcleo de la predicación, en nuestro ejemplo, hay dos predica- 
ciones, una cuyo núcleo es uocant llamar y otra cuyo núcleo es appellat “denomina. Los 
demás elementos de la predicación se relacionan con ellos tanto sintáctica como semánti- 


camente. De este modo, por ejemplo, Graeci “los griegos” es el sujeto (función sintáctica) 
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Agente (función semántica) de uocant llaman, y uulgus ‘el pueblo’ cumple las mismas 
funciones (sujeto Agente) respecto a appellat “denomina. 

Así mismo, los elementos de una predicación pueden remitir secundariamente a otros 
componentes. Por ejemplo, los nombres cikgtov y laserpitium, que es como cada uno de 
los pueblos llama a la raíz en cuestión, cumplen una doble función: sintácticamente son 
complementos del objeto obligatorios de los verbos llamar y denominar (“a la raíz la llaman 
laserpicio”), semanticamente hacen referencia a radix ‘la raíz. Esta doble relación está mar- 
cada mediante una línea discontinua. 

Por otro lado, las predicaciones en su conjunto también cuentan con sus propias carac- 
terísticas sintácticas (si se trata de una oración principal o subordinada; si es esto último, 
de qué tipo es y qué función sintáctica cumple) y semánticas (si es un evento controlado, 
su polaridad y diátesis). 

Además de todo esto, se reflejan las características léxicas de los distintos elementos, 
sean palabras o predicaciones completas. 

En la siguiente ilustración se muestra un modelo de representación gráfica del análisis 
en COMREGLA. 


[radix] |quam Graeci oiA@tovuocant [quam] uulgus autem nostra consuetudine laserpitium|appellat 
Objeto Sujeto a Dee: - "Sao Cplto. Circunstancial 
Tema Agente palabras Tema Agente Particula ora 
Concreto Humano Elidido Humano ee ee 
A 
a E 
Clause 1 Clause 2 
Subordinada, Subordinada, 
Oración de relativo, Oración de relativo, 
Complemento del nombre Complemento del nombre 
Controlada, Controlada, 
Polaridad positiva Polaridad positiva 
Diátesis transitiva Diatesis transitiva 


Figura 2. Modelo de representación de la capa causes para el ejemplo (1). 
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5. El problema de las formas nominales del verbo en latin y en 
griego antiguo 
Una vez presentada la estructura general de la nueva base de datos XML, ahora profundi- 
zaremos en la descripción de algunos problemas relativos al análisis de las formas nomi- 
nales del verbo -elementos altamente productivos en las lenguas estudiadas ($ 5.1)- y en 


las soluciones que se ofrecen desde el nuevo modelo COMREGLA ($ 5.2). 


5.1. Descripción de los problemas 

Las llamadas “formas nominales del verbo” tienen unas peculiaridades morfológicas que 
las hacen participar de una doble naturaleza nominal y verbal, pero la razón por la cual las 
hemos escogido para profundizar en los problemas que nos han surgido es que en el plano 
sintáctico y semántico se caracterizan, sobre todo, porque no suelen formar una oración 
independiente: no suelen constituir un mensaje completo, puesto que no tienen autonomía 
sintáctica ni comunicativa”. Tienen, pues, un carácter subordinado: están insertas en una 
oración y, a la vez, tienen su propio MP. 

A través de los ejemplos que se analizan a continuación se ilustra la gran variedad de 
construcciones sintácticas a las que dan lugar estas formas nominales y se recoge de ma- 
nera esquemática la información presente en las bases relacionales de REGLA. 

Para comenzar, en el ejemplo (2) tenemos una construcción de infinitivo no concerta- 
do, donde el verbo en infinitivo (facere) se inserta en el MP del verbo principal (uolo), al 
tiempo que tiene su propia complementación: un sujeto (te) y un objeto (hoc). El infinitivo 


participa, en este sentido, en dos predicaciones al mismo tiempo”. 


6 Estas no son las únicas construcciones que forman oraciones subordinadas en griego y en latín, pues 
tenemos oraciones introducidas por conjunciones subordinantes, así como por pronombres relativos. Sin 
embargo, la elección de las formas nominales del verbo para este artículo es que son mucho más frecuentes 
y productivas en ambas lenguas. 

7 En los modelos de representación de los ejemplos se han empleado las siguientes abreviaturas: 

» ARG-SBJ: argumento-sujeto 

e ARG-OB): argumento-objeto 

+ CN: complemento del nombre 

* Coord: coordinación 

°  Disj: disjunto 

e elip: elemento elíptico 

» MP: marco predicativo 

* Prep: preposición 

* *: elemento sin correspondencia en el nivel woros 
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Ejemplo (2). 


nunc ego te facere hoc uolo 
ADV PRON.AC.SG PRON.AC.SG INF.PRES.ACT PRON.AC.SG QUERER] SG.PSTE.IND.ACT 
“ahora yo quiero que tú hagas eso” (Plaut. Bacch. 93) 
MP facio: 


Predicación 2 


nunc ego | te |jacere hoc 


ARG-SBJ lARG-SBJ Núcleo 


ARG-OBJ 


ARG-SBJ (Agente-humano) + 
ARG-OB] (Resultado- 


[elip] wolo 


ARG-OBJ Núcleo 


Predicación 1 


Figura 3. Modelo de representación del ejemplo (2). 


MP uolo: 
ARG-SBJ (Agente-humano) + 
ARG-OBJ (Tema-evento) 


Otra construcción típica de estas formas en las lenguas clásicas es la del participio sustan- 


tivado, ilustrado en (3). En ejemplos como este, a la participación de la forma nominal del 


verbo en dos predicaciones a la vez se añade el problema del marcaje del léxico. En efecto, 


debido a la sustantivación de oi oikodvtec ‘los que viver nos encontramos con una dico- 


tomía a la hora de establecer el léxico del participio: ¿es /+humano/ porque está sustanti- 


vado o es /+evento/ porque expresa un estado? 


Ejemplo (3). 

Epewav se kal oi Trapa tv Báňattav OİKOŬVTEÇ 
permanecer PART ADV ART.NOM.PL PREP ART. marac.sG habitarparr. 
3PL.AOR.IND.ACT AC.SG PRES.NOM.PL 
èv ZOAOLG 
PREP Solos 

DAT.PL 


“Y se quedaron también los que viven junto al mar, en Solos” (X. An. 1.2.24). 
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MP oixéo: 
ARG-SBJ (Agente-humano) + 
ARG-OBJ (Ubicación-lugar) Predicación 2 


Se kai oi apa mv OdAattav [elip]|oixodvrecilev Lókorc [elip] 
Núcleo _ ARG-OBJ ARG-SBJ Núcleo A A 
o a 
A 
MP évo: 


Predicación 1 


ARG-SBJ (Agente-humano) + 
ARG-OBJ (Ubicación-lugar) 


Figura 4. Modelo de representación del ejemplo (3). 


El ejemplo (4) representa otra de las estructuras habituales a las que dan lugar estas formas: 
el participio atributivo. En este caso, el participio peivac ‘que permanece funciona como 
un modificador de otpatdc “ejército. Sin embargo, en su análisis se pierde información 
sobre su complementación, dado que se le asigna un sujeto elíptico contextual, a pesar de 


que tal sujeto sea el sustantivo otpatoc. 


Ejemplo (4). 


GAN ovs' ó peivaç vdv èv “EAAdS0¢ TOTLOLG 
CONJ CONJ ART.NOM.SG permanecerPART. ADV PREP Greciacen. — lugarDar. 
NOM.SG SG PL. 
otpatoc KUPIOEL VOOTÍHOU owtnpias 
ejércitonom.  conseguir3sG. regresoGen.  salvaciónAc.sG 
SG FUT.IND.ACT SG 


“pero ni siquiera el ejército que permanece ahora en territorio griego conseguirá la salvación del regreso” (A. Pers. 
796-797). 
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MP évo: 
ARG-SBJ (Agente-humano) + 
Predicación 2 ARG-OBJ (Ubicación-lugar) 
ĠAN Odd’ ófueivas |vdv év EAAGSoc tórO1S [elip]|otpatòs kophoevootiuov compías 
Núcleo ARG- ARG- 
OBJ SBJ ARG-SBJ Núcleo ARG-OBJ 


er 


E 


wo i 
Predicación 1 MP xopéo: 
ARG-SBJ (Agente-colectivo) + 


ARG-OBJ (Tema-evento) 


Figura 5. Modelo de representación de ejemplo (4). 


En resumen, por la naturaleza de las lenguas clásicas, las formas no personales del verbo 
son uno de los escollos más frecuentes y que mejor ilustran este proceso de transformación 
de un sistema a otro, ya que obligan a condensar información que, hasta el momento, 
aparecía en dos (o más) fichas y a establecer cuál es la relación entre las predicaciones, sea 
esta de carácter obligatorio, tal como hemos visto en los ejemplos (2) y (3), o no, como en 
el ejemplo (4). 

Por otra parte, vemos cómo hay otros elementos que están dentro de la predicación o 
que unen una oración con la anterior en el texto (en el ejemplo 4, 4A y où’ cumplirían 
esta función) o que enlazan predicaciones y que quedarían sin etiqueta (al igual que la 


predicación segunda en 4) y tampoco aparecerían recogidos de ninguna manera. 


Soluciones adoptadas en COMREGLA 

El nivel CLAUSES del marcaje en XML de COMREGLA ofrece las herramientas necesarias 
para afrontar los problemas planteados por las formas no personales del verbo. Veamos 
cada uno de los ejemplos y comprobemos cuáles son las soluciones que proponemos en 
COMREGLA. 

Figura 6: respecto a la integración de subordinadas en sus respectivas predicaciones 
principales, problema que se ilustró en el ejemplo (2), la nueva base de datos permite es- 
tablecer la naturaleza morfológica y sintáctico-semántica del objeto de la predicación re- 
gida, a diferencia de REGLA; recordemos que en estas solo se recogía la información 
morfológica (un infinitivo) sin que se pudiese establecer la relación entre ambas predica- 


ciones. Para relacionarlas, como se observa en la figura 6, la base de datos COMREGLA 
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se sirve de un elemento en la oración principal que no remite a ninguna realidad textual y 


que recoge la información de la predicación subordinada (*). 


nunc ego® [uolo] 


Predicacion | 


MP uolo: 
ARG-SBJ (Agente-humano) + 
ARG-OBJ (Tema-evento) 


ARG- 
SBJ 


ARG- 
OBJ 


Disj 
7 Núcleo 


Predicación 2 


MP facio: 
ARG-SBJ (Agente-humano) + 
ARG-OBJ (Resultado-abstracto) 


te |\facere | hoc 
ARG- Núcleo ARG- 
SBJ OBJ 


Figura 6. Solución de análisis en COMREGLA para el ejemplo (2). 


Figura 7: el segundo de los problemas que plantean las formas nominales de los verbos y 


que se ha ejemplificado en (3) es la necesidad de recoger la información léxica de las pre- 


dicaciones subordinadas cuando están sustantivadas. A este respecto, como se ilustra en la 


figura (7), la base de datos COMREGLA es capaz de almacenar esta información, añadién- 


dosela al elemento (*). Asi, en la oración principal, el elemento que remite a la predicación 


2 en su conjunto presenta el rasgo /+humano/ y la predicación en sí conserva su carácter 


de evento. Además, permite etiquetar elementos que no pertenecen a la predicación 


nuclear, como 6é y kai. 


Predicación 1 


MP évo: 
ARG-SBJ (Agente-humano) + 
ARG-OBJ (Ubicación-lugar) 


Euewav| dé Kai oi E) év Zólorc 


Dis; Disj CNARG- Prep ARG-OBJ 
SBJ 


Núcleo 
Humano 


Predicación 2 


MP oikéa: 


ARG-SBJ (Agente-humano) + 


ARG-OBJ (Ubicación-lugar) 


= 
Tapa THY Bálariav [elip] 


Prep CN ARG-OBJ 
ARG-SBJ Núcleo 


Figura 7. Solución de análisis en COMREGLA para el ejemplo (3). 
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Figura 8: en el análisis de la base de datos REGLA, no es posible establecer una relación entre 
el participio atributivo (t1eivac) y el sustantivo al que complementa (otpatéc). Por el contrario, 
la nueva base de datos, como se ve, permite relacionar ambos términos en dos sentidos: por 
un lado, mediante un elemento en la oración principal que no remite a ninguna palabra y que 
recoge la información de la predicación subordinada en su conjunto se marca la función de la 
predicación subordinada como complemento del nombre otparós. Por el otro, en la predica- 
ción subordinada se considera un sujeto elíptico cuya información es coincidente con la de 
otpartóc. Además, como ya sucedía en la figura 7, los elementos que no pertenecen estricta- 
mente al ámbito de la predicación, sino al nominal (como los artículos) y al oracional (partí- 


culas discursivas y algunos adverbios), reciben sus etiquetas correspondientes. 


Predicación 1 ae 7 
MP wopio: AAN où’ 6 Motpatdc vootipov catnpiac 


ARG-SBJ (Agente-colectivo) + Dis} Disj CNCN ARG-SBJ CN ARG-OBJ 


ARG-OBJ (Tema-evento) 


Nucleo 


Predicacion 2 


Fee. N 
pieivac|vbv v EAA GOoc tónow [elip] 
= Disj Prep CN ARG- ARG- 
ARG-SBJ (Agente-humano) + Núcleo OBJ SBJ 


MP évo: 


ARG-OBJ (Ubicación-lugar) 


Figura 8. Solución de análisis en COMREGLA para el ejemplo (4). 


A través de los anteriores ejemplos hemos podido mostrar cómo el nuevo análisis propues- 
to por COMREGLA permite solucionar los problemas principales que plantean las bases 
de datos relacionales REGLA: la relación entre predicaciones y el etiquetado de elementos 
que no pertenecen a la estructura obligatoria de la predicación. 

De esta manera, la información recogida en COMREGLA mantiene el análisis refina- 
do de las bases de datos predecesoras solventando sus carencias y consiguiendo, al mismo 


tiempo, ser compatible con otras herramientas de PLN. 


Conclusiones 

Como se ha podido comprobar, la nueva base de datos XML hereda de las antiguas bases 
de datos relacionales la capacidad de almacenar y gestionar un profundo análisis sintácti- 
co-semántico que puede ser de enorme ayuda en la labor de investigación lingüística del 
griego antiguo y el latín, pero también supone algunas novedades respecto a sus predece- 


soras. 
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Como se recordara, las bases de datos relacionales de las que parte este trabajo se nutren 
de fragmentos no conectados entre si, de los que solo podian analizarse el verbo y su com- 
plementacion obligatoria. Frente a esto, la base de datos COMREGLA permite tanto eti- 
quetar textos completos, estableciendo para ello las relaciones pertinentes entre distintas 
predicaciones, como analizar todos sus componentes, sean obligatorios o no. 

Asimismo, posibilita unas búsquedas mucho más precisas y completas, al haber mucha 
más información analizada que poder recuperar: estructuras complejas como las formas 
nominales del verbo, adjetivos con función atributiva, construcciones no pertenecientes a 
la predicación, entre otras, sin perder la precisión que se había ganado con la anotación 
detallada de las estructuras predicativas. 

Por otro lado, el hecho de emplear la misma tecnología que otros recursos similares, 
como, por ejemplo, LiLa, permite la compatibilidad con ellos y, aunque esté de momento 
centrado en el latín y el griego antiguo, es un modelo de etiquetado que podría aplicarse a 


otras lenguas. 
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Análisis del epistolario del coronel 
Anselmo Pineda con Python: una 
mirada al proyecto coleccionista y 
al territorio desde las redes 
sociales y el aprendizaje 
automático 


Analysis of Colonel Anselmo 
Pinedas epistolary with Python: a 
glance to the collecting project from 
the study of the territory and social 
networks 


Santiago Alejandro Ortiz Hernández 
Red Humanidades Digitales - Colombia 


Resumen: Este artículo analiza el coleccionismo del coronel Anselmo Pineda, quien 
fue el mayor coleccionista de documentos públicos del siglo XIX colombiano, a partir 
de su voluminoso epistolario conservado en la Biblioteca Nacional de Colombia. Se 
usa una metodología mixta que combina la tradicional lectura cercana y la lectura 
distante realizada por la máquina e implementada a través de técnicas propias de la 
ciencia de datos y los Sistemas de Información Geográfica implementados con Py- 
thon. De manera que, a través de esa doble lectura, se propone alcanzar dos obje- 
tivos: I) plantear una aproximación basada en humanidades digitales e historia dig- 
ital que permita descubrir el método de recopilación de documentos del coronel al 
examinar la composición de su red de colaboradores reconstruida exclusivamente 


mediante su correspondencia personal, y Il) explorar el alcance espacial de esa red 
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de colaboradores de forma tal, que posibilite la evaluación de la dimensión espacial 
en la conformación de la biblioteca Pineda en el marco del proyecto civilizatorio de 
la naciente república en Nueva Granada. 

Abstract: This article analyzes colonel Anselmo Pineda's collecting, who was the ma- 
jor documental collector of Colombian XIX century, taking as source his rich and 
abundant personal correspondence preserved at the National Library of Colombia. 
The previous through a mixed methodology that blend the traditional close reading 
of the letters and distant reading performed by the machine and implemented 
trough data science and GIS techniques with Python. Therefore, with that dual type 
of reading, this article proposes two goals: |) to pose both a theoretical and practical 
approximation, based on Digital Humanities and Digital History, that allows discover 
compilation method developed by colonel Pineda when examine the composition of 
his network of collaborators reconstructed exclusively through his personal letters, 
and Il) to explore the spatial scope of that collaborators’ network in a manner that 
allows the evaluation of the spatial dimension in the conformation of Pineda's library 


under the civilizatory project at the emergent republic of Nueva Granada. 


Introducción 
Con base en la abundante correspondencia personal del coronel Anselmo Pineda dispersa 
en varios archivos colombianos públicos y privados, en las pocas biografías juiciosas del 
coronel y en una investigación del autor del presente texto que contó con la financiación 
del Ministerio de Cultura de Colombia a través del programa de estímulos para la investi- 
gación en Humanidades Digitales, se reconstruyó tanto la trayectoria del militar, político 
e ilustrado, así como su estrategia coleccionista. En ese sentido, la trayectoria del coronel 
estuvo desde muy temprano marcada por la guerra y por un indiscutible patriotismo que 
se expresaba no solo en sus actos de lealtad a los ideales republicanos del siglo XIX, sino 
en sus consistentes esfuerzos por construir un monumento a la república, que en forma de 
colección documental, cumpliera el propósito de servir como archivo para el doble propó- 
sito de la conservación de la memoria y la identidad nacional, así como fuente de autoridad 
y legitimidad estatal desde un punto de vista jurídico y político. 

Tras el proceso de independencia, la naciente república neogranadina resultó con un 
vacío simbólico y documental que requirió de la agencia de una extensa red de ilustrados, 


libreros, amigos, familiares y, en menor medida, autoridades estatales que colaboraron en 
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la consecución de un gran proyecto coleccionista materializado en dispersas colecciones 
privadas de diversa índole. Algunas de estas colecciones no solo fueron pensadas por sus 
propietarios en términos de su coherencia y orden interno, también fueron pensadas para 
enlazarse con otras y formar una sólida base documental que solventara la urgencia fun- 
dacional de un archivo de la historia y la ley de la república. Es el caso de la colección Pi- 
neda, la más grande del siglo, diseñada por su autor-coleccionista para eslabonarse con las 
colecciones de menor volumen que paralelamente organizaban el general Joaquín Acosta 
y Manuel Ancizar, y dotar así a la Biblioteca Nacional de un gran repositorio conocido 
como la Biblioteca de Obras Nacionales que desde la geografía, la historia, los soportes de 
documentos oficiales y la literatura legal y política, hiciera las veces de punto de partida 
para la historia del progreso, la formación nacional y la consolidación estatal. De manera 
que hubo un proyecto coleccionista consciente y colectivo que buscó hacer de algunas de 
las colecciones privadas un recurso indispensable para el Estado. 

Este proyecto coleccionista fue consustancial al proyecto de colonización interna y a 
los esfuerzos civilizatorios de las élites criollas, en la medida de que los más importantes 
coleccionistas, como Anselmo Pineda, tuvieron la doble función de adelantar la coloniza- 
ción interna y exploración de los territorios, así como la de configurar una representación 
y narrativa nacional a través de la recolección, clasificación y disposición del universo 
documental condensado en esas colecciones privadas. Dicho esto, en la colección Pineda, 
a la luz de su biografía, se manifiesta la yuxtaposición del proyecto de colonización interna 
del territorio con el proyecto coleccionista de la élite ilustrada de la República de Nueva 
Granada, que tras la independencia comprendía a Ecuador, Venezuela, Panamá y Colom- 
bia, y pasó a llamarse la Gran Colombia. 

Así emerge el carácter indudablemente político del coleccionismo, pues este no solo fue una 
práctica ilustrada con los fines ya mencionados, tampoco fue solo una manía compulsiva de 
algunos, sino que fue un instrumento político de promoción y defensa de una determinada 
visión nacionalista a la medida de su autor y de su red social. Es decir, el coleccionista, especial- 
mente Anselmo Pineda, que recopila, ordena y cataloga su colección, también termina por 
manufacturar una poderosa arma de guerra oponible a otros proyectos nacionales en compe- 
tencia y a la que debe defender mediante el debate público en periódicos, tertulias informales 
y discursos en el senado de la república, en búsqueda de suficiente legitimidad para elevar su 
colección privada al estatus de archivo de Estado, tal y como lo demostrará este artículo. 

Siendo así, es vital señalarle al lector que el interés de este artículo versa más sobre el co- 
leccionismo de Anselmo Pineda que sobre su colección propiamente, no obstante, la propues- 


ta de investigación que se mostrará apunta a relacionar la colección con sus condiciones de 
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posibilidad mediante el abundante epistolario que el coronel premeditadamente decidió con- 
servar para su estudio histórico. Las Humanidades Digitales y las Geohumanidades Digitales 
ofrecen una especial forma de análisis apropiada para el estudio de un especial y voluminoso 
corpus de epistolas compuesto por 3613 documentos personales que serán procesados con 
diversos algoritmos diseñados por el investigador e implementados en el lenguaje de progra- 


mación Python. Se explicará en detalle el proceso en el apartado sobre la metodología. 


Antecedentes 

Sobre el coronel Anselmo Pineda se han escritos contadas investigaciones con diferentes 
niveles de profundidad historiográfica, por un lado, existen las biografías apologéticas 
mayormente publicadas a comienzos y hasta mitad del siglo XX, cuya característica es que 
dan al lector una imagen de Pineda coherente con los valores cívicos y republicanos. Entre 
estas encontramos La Biografía de Anselmo Pineda (León Gómez, 1907), y Coronel Anselmo 
Pineda (Giraldo, 1955). Por otro lado, existen las biografías con una narrativa histórica más 
rigurosa entre las que están Anselmo Pineda (Moreno de Ángel, 1981); The Struggle for 
Power in Post-Independence Colombia and Venezuela (Brown, 2012), y dos tesis de pregra- 
do: La Biblioteca de Obras Nacionales Formada por el Coronel Anselmo Pineda Como un 
Aporte a la Formación de la Nación Colombiana, (Pardo, 2005) y finalmente la tesis Vida y 
Obra del Coronel Anselmo Pineda. Un Estudio del Coleccionismo y las Redes Sociales en 
Nueva Granada Durante el Siglo XIX (Ortiz, 2016). 

Cabe resaltar que solo los últimos dos trabajos académicos emplean como fuentes pri- 
marias la correspondencia del coronel Pineda, pero únicamente el último trabajo compren- 
de todo el epistolario encontrado hasta el momento en los repositorios de la Biblioteca Na- 
cional de Colombia. El presente artículo introduce también la correspondencia del coronel, 
conservada en otros archivos colombianos como el Archivo Central del Cauca, Tomas Ci- 
priano de Mosquera; el Archivo de la Universidad EAFIT; el Archivo Histórico Cipriano 
Rodríguez Santamaría - Universidad de la Sabana; el Archivo Histórico Universidad Nacio- 
nal de Colombia y, de la sección de Libros Raros y Manuscritos, el Archivo Julio Arboleda de 
la Biblioteca Luis Ángel Arango. Por último, es necesario destacar que este artículo hace 
parte de los resultados de varios años de investigación y trabajo de archivo que, en adición, 
en 2019 recibió una beca de investigación del Ministerio de Cultura de Colombia. Con todo, 
la investigación aún se encuentra inacabada dadas las varias aristas y niveles de profundidad 


para el análisis del objeto de estudio y procesamiento de las numerosas fuentes. 
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3. Breve biografía del coronel 

Anselmo Pineda nació en abril de 1805, en El Santuario, Antioquia, para entonces perte- 
neciente a la jurisdicción de Marinilla, motivo por el cual ha existido confusión sobre su 
lugar de origen. Con 17 años, el joven Pineda fue remitido por su padre a estudiar juris- 
prudencia en el Colegio Mayor Seminario de San Bartolomé en Bogotá, pero como varios 
de sus contemporáneos abandona la academia en busca de un oficio que le permitiera 
iniciar una carrera en el Estado. Es así como por intermedio de su coterráneo y para el 
momento Secretario del Interior, José Manuel Restrepo, obtiene el cargo de ayudante archi- 
vero de la Secretaría del Interior para una año después ser promovido a oficial escribiente 
de la Secretaria de Hacienda. Ambos cargos son determinantes en la trayectoria del joven 
Pineda, pues al entrar en contacto con las desordenadas reservas documentales de la 
naciente república, termina por motivarse a iniciar el coleccionismo documental, dice 
Pineda en 1848: “adquirí el hábito importante del arreglo de papeles de un archivo, ya desde 
entonces el convencimiento íntimo, por el desorden en que se hallaba aquel y por el impro- 
bo trabajo que costaba dar con algún antecedente” (RM 630, 1848, folios 24-27) 

Sin embargo, su carrera en los archivos estatales se vería brevemente interrumpida por 
un evento que obligaría a su escape rumbo a Antioquia en compañía de su entrañable amigo 
Mariano Ospina Rodríguez, quien se vio envuelto en la llamada conspiración septembrina 
de 1828, en contra de Simón Bolívar. En 1829, Pineda es nombrado por Manuel Antonio Ja- 
ramillo en el cargo de oficial archivero de la Secretaría de Gobierno de la provincia antioque- 
ña, pero duraría poco en el cargo debido a su incorporación a las huestes del general José 
María Córdova conocidas como el Ejercito de la Libertad y que tenían como propósito en- 
frentarse al gobierno central de Bolívar (Pineda, 1831, págs. Pág. 1-2). El conflicto regional 
escaló hasta convocar a los dos ejércitos en el campo de batalla de El Santuario en 1829. 

El resultado de la contienda dejó diezmado y acorralado al Ejército de la libertad, al 
general Córdova muerto por ejecución sumaria (Brown, 2012, cap. 4) y a nuestro persona- 
je con graves heridas de bala que, de no ser por la ayuda del hermano menor del general 
Córdova, Salvador Córdova, hubiese tenido el mismo destino. Varios meses después de su 
recuperación y tras el indulto otorgado por Daniel O'Leary a los excombatientes en 1830, 
Pineda fue nombrado interventor de la Tesorería de Antioquia (Pineda, 1831, pág. 2), no 
obstante, las secuelas del conflicto de El Santuario estaban lejos de acabar y las relaciones 
de varios implicados en la contienda apenas comenzarían. Solo un año más tarde, en 1831, 
Pineda fue puesto en la cárcel acusado de conspirador e inepto en su cargo, pero tras fu- 
garse se incorpora a las tropas de Salvador Córdova, esta vez para una nueva campaña 


militar en contra del gobierno central de Rafael Urdaneta (Pineda, 1831, págs. 7-8). 
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Una vez depuesto el presidente, inicia la persecución y exilio de los bolivarianos radicales 
(Brown, 2012, cap. 6), dando lugar a una reconfiguración de las redes de poder regionales en la 
que Pineda se beneficiaría. Con el patronazgo de José María Obando, ministro de guerra, Pine- 
da fue restablecido en su puesto en la Tesorería de Antioquia y, en 1832, incorporado al ejército 
regular del gobierno central en donde le fueron reconocidos los rangos alcanzados en el Ejerci- 
to de la Libertad. Anselmo Pineda no solo se vio beneficiado en lo que respecta a su carrera 
militar, también comenzó a establecer importantes relaciones personales con la élite payanesa 
al contraer matrimonio con la viuda del prohombre de la independencia Pedro Acevedo Tejada. 
Esta nueva relación no solo le daría mejor estatus al antioqueño, también le daría los medios 
sociales para cimentar relaciones de cooperación con coleccionistas ilustrados del Cauca’. 

Pineda dedicó los siguientes 7 años al intercambio coleccionista con amigos como Anto- 
nio María Gutiérrez, quien le siguiere tener buenas relaciones con los correistas y “con este 
método para que lleves al cabo tus Colecciones” (RM 435, 1843, folio 150-160) y Tomás Ci- 
priano de Mosquera, con quien compartía la afición botánica y naturalista (Carpeta 21, Pieza 
106, folio 18133; RM 447, 1834, folio 86), además se concentró en la fundación de sociedades 
de instrucción, colegios e instituciones para la educación de niñas (RM 446 folio 92; RM 446 
pág. 127; RM 445, folio 376). Sin embargo, la reconfiguración de las redes de poder del go- 
bierno central, sumada a un ambiente político volátil y una tendencia a las armas devino en 
un nuevo conflicto bélico conocido como la Guerra de los Supremos. En este conflicto José 
María Obando, aprovechando la insurrección promovida por el cura Francisco Villota en 
Pasto por el cierre de ocho conventos, se levanta en armas en contra del presidente José Ig- 
nacio Márquez, por lo que fueron enviados el general Pedro Alcántara Herrán y el capitán 
Anselmo Pineda, que para entonces se ocupaba del arreglo del archivo general del ejército 
granadino (carpeta 35, Pieza 3, folio 10260), a pacificar la provincia del Cauca. En esta cam- 
paña la función de Pineda consistió en administrar las finanzas del ejército por lo que fue 
ascendido a tesorero de guerra (Carpeta 34, Pieza 25, folio 11346), y aunque no poseía cono- 
cimientos contables hizo una formidable labor en la organización y control de los recursos 
de campaña (Carpeta 34, Pieza 33, folio 11354), pero inconforme con las dificultades en su 
labor (Carpeta 34, Pieza 34, folio 11355; Carpeta 35, Pieza 11, folio 10268) solicitó un reempla- 
zo y también ser colocado en primera linea de combate (Carpeta 35, Pieza 8, folio 10265). Una 
vez en el campo de batalla tuvo un destacado desempeño en la batalla de Chuaguabamba por 


lo que fue ascendido a sargento mayor. 


1 Los principales colaboradores en Popayán fueron la familia Arroyo y Caicedo, pero también contó con el 
apoyo de los Arboleda y Mosquera. 
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Al levantamiento fueron sumándose caudillos de todas las provincias en oposición al gobier- 
no central, incluyendo a Salvador Córdova en Antioquia (RM 439 Folio 74; RM 444, folio 87; RM 
446, folio 64), motivo por el cual Pineda fue enviado por Márquez a solicitar apoyo al presidente 
de Ecuador, José María Flóres, así como también ordenó a Tomás Cipriano de Mosquera a unir- 
se a Pedro Alcántara Herrán en el sur. Tras la victoria, Pineda y Mosquera fueron enviados a 
Antioquia para enfrentar a Córdova (Carpeta 53, pieza 45, folio 13471), quien al ser derrotado fue 
ejecutado por Mosquera, por su parte Pineda fue remitido de vuelta al Cauca con la misión de 
perseguir remanentes de guerrillas opositoras (Carpeta 84, Pieza 63, folio 14407; Carpeta 84, 
Pieza 64, folio 14408). El fin de esta guerra no solo cierra un ciclo de tensiones presentes desde la 
guerra de El Santuario, también marca el momento en que Pineda constituye nuevas lealtades e 
inicia una carrera política, coleccionista y militar en ascenso (Ortiz, 2015, pág. 47). 

En el siglo XIX la esfera política, militar e intelectual suelen sobreponerse de modo que re- 
sulta imposible encasillar una figura de la época en alguna de esas categorías separadamente, 
por tal motivo, al mismo tiempo que Pineda mejora su posición social y asciende en el ejército 
también se va perfilando como un político de influencia. Es así como para dar por terminada la 
Guerra de los Supremos es comisionado a negociar una salida pacífica con el supremo de Pana- 
má, Tomás Herrera, lo que consigue con éxito y es nombrado coronel de infantería por el pre- 
sidente interino y pariente Domingo Caicedo, quien además habría facilitado el matrimonio de 
su sobrina María Josefa Valencia con Anselmo Pineda varios años atrás después de combatir 
hombro a hombro al gobierno del bolivariano Rafael Urdaneta. La carrera política de Pineda 
cobra forma con su elección como representante de Antioquia en 1843, pero es nombrado go- 
bernador de Panamá poco tiempo después por el presidente Pedro Alcántara Herrán, motivo 
por el cual debe abandonar su curul en la Cámara de Representantes hasta su retorno en 1848. 

En Panamá, Pineda puso en marcha proyectos de educación popular a través de escuelas-taller 
para el fortalecimiento del comercio de exportación; también mediante publicaciones periódicas 
como la Cartilla Popular, la que gozó del apoyo de la élite intelectual y política local y extranjera, 


es el caso del militar, intelectual y coleccionista Joaquín Acosta, quien al respecto comenta: 


acabo de recibir el N. 2 de la Cartilla Popular [...]. Dirtjase pues usted en mi nombre a Mr 
Hormes Secretario de la Sociedad de Educación del Liceo de Nueva York que él le procu- 
rará libros elementales escogidos por las escuelas por precios ínfimos y solo calculados para 
reembolsar una pequeña parte de los gastos de impresión y papel-- Hoy no tengo lugar de 
buscar el cuaderno que me pide, pero seguiré por el otro correo. He leído su carta al Sr 
Ordoñez en presencia de varios señores interesados en sus proyectos. Yo por mi parte nada 
puedo sino suscribirme a la Cartilla más como no he visto sino el N.2 ignoro el precio de 
la suscripción para remitirle (Acosta, RM 439, folio 313). 


97 


Digital Humanities, Corpus and Language Technology 


Estos proyectos consistieron también en la fundación de la Sociedad Filantrópica de Pana- 
má que contó con el respaldo de otras sociedades filantrópicas granadinas? y de influyentes 
amigos como el cura Antonio María Gutiérrez, quien le advirtió a Pineda sobre el rol 


político y la poderosa influencia de las sociedades, dice Gutiérrez: 


El primero entraremos en los trabajos de Chagres, y ya te he dicho que no nos acompañas 
porque las filantrópicas, tienen ya y tendrán la parte influyente en las elecciones i como 
que he oído con disgusto que por allá trabajan bajo tus auspicios, por el B.M.O. [para 
referirse a Mosquera] hace para presidente pobre patria si tendrás en tus ultimas convul- 
siones un Maximiliano que te arranque las entrañas (RM 446, folio 143). 


Cabe señalar que el coronel Pineda no era un novato en este tipo de proyectos, dado que 
ya contaba con experiencia en la fundación de sociedades y a él le eran reportados con 
frecuencia los avances de sociedades filantrópicas en Antioquia en las que participó como 
fundador en años anteriores’. 

Expuesto así, es evidente la inseparabilidad anotada entre el ejercicio político, militar e 
intelectual de Pineda que se materializó en su Biblioteca de Obras Nacionales. En consecuen- 
cia, el coleccionismo respondía a intereses específicos de un nicho social ubicado en un de- 
terminado espectro político, pero también a un particular y singular proyecto civilizatorio 
que, en el caso específico de Pineda, consistía en desarrollar las bases para el progreso nacio- 
nal que fundamentalmente buscaban educar a las masas en actividades prácticas para el 
comercio, la construcción de infraestructura y la exploración de las zonas de frontera inex- 
ploradas y alejadas del poder institucional del Estado como Panamá, Túquerres y Caquetá. 
En este sentido, Anselmo Pineda a pesar de ser uno de los padres fundadores del partido 
conservador, no tuvo como prioridad la enseñanza moral y si la educación práctica sin dis- 


tinción de género, lo cual expresa el talante intelectual del coleccionista y su postura política 


2 A modo de invitación Pineda recibe la siguiente comunicación de la sociedad filantrópica de Medellín: “No 
creo demás indicar a U que en la actualidad tengo la dicha de pertenecer a la respetable y grande sociedad de 
instrucción primaria de esta capital, y también correspondo a su consejo administrativo que dignamente preside el 
muy ¡lustre señor Arzobispo y distinguido ciudadano José Manuel Mosquera, y yo desearía que la de esa provincia 
se pusiera en comunicación con la de esta capital y se estableciera entre todas las asociaciones de esta clase una 
marcha igual, acorde, constante y sostenida en la propagación de las escuelas de la enseñanza general”. (RM 441, 
folio 105) 

3 Una comunicación de Elías Gonzáles a Pineda sobre los proyectos de la sociedad filantrópica en Salamina, 
Antioquía, dice: “La sociedad filantrópica se reunió el día 4, ¡todas las noches se reúne a discutir varios proyectos 
que se han presentado cuales son la supresión de billares, la corrección de niños, una contribución para alumb- 
rado, i gastos de escritorio, un reglamento interno que me mandó ud uno i últimamente estamos ensayando la ley 
que dispone se nombre un cabildo parroquial” (RM 446, folio 109) 
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difícil de encasillar, muy semejante a la figura de Simón Rodríguez, a quien conoció durante 
su insospechado paso por Caquetá cuando Pineda fungia como prefecto*. 

De conformidad con esos presupuestos identificados en la visión de progreso de Pine- 
da, durante su gobernación en Panamá, este convenció al presidente Herrán de la conve- 
niencia de la construcción del canal en alianza tripartita de Nueva Granada, Francia e 
Inglaterra (Carpeta 21, Pieza 102, folio 18129; Carpeta 21, Pieza 103, folio 18130), pero tras 
el fracaso del proyecto este renunció al cargo y con su nombramiento como prefecto de 
Caquetá y luego como gobernador de Túquerres, emplea de nuevo esos instrumentos de 
colonización interna practicados en Panamá, esto es: construcción de infraestructura (Car- 
peta 47, Pieza 117, folio 19974), control del contrabando (Carpeta 41, Pieza 136, folio 21994), 
convocatoria de colonos con exención de impuestos y adjudicación de tierras baldías (Pi- 
neda, Pieza 469, 1845, folios 103-104), puesta en marcha de escuelas-taller sin distinción de 
género para el artesanado (RM 622, Pieza 29) y exploración de la geografía selvática. En 
este momento, Pineda conoce al maestro de Simón Bolívar, el célebre Simón Rodríguez 
(1990), con quien tuvo la oportunidad de desarrollar un proyecto civilizatorio único basa- 
do en la colonización del territorio efectuado por ciudadanos con habilidades manuales 
-agrícolas y artesanales - capaces de auto sustentarse y contribuir al desarrollo de la nación. 
En particular, se propusieron, en primer lugar, enseñar en las escuelas-taller varias técnicas 
de carpintería, agricultura y construcción, así como aritmética, civismo republicano, gra- 
mática y retórica, y en segundo lugar, moral y catecismo, tal y como lo propuso Rodríguez, 


pues se trataba de una educación a la medida de la realidad americana.’ 


4 La colaboración entre Rodríguez y Pineda al respecto del proyecto educativo y de la exploración de la 
geografía fronteriza, le cuenta el maestro a Pineda: “No escribiré a usted largo, porque se me olvidó el día del 
correo, y la persona que lleva ésta a Pasto la está esperando para ponerse en talones. La casualidad ha traído 
aquí un médico naturalista suizo, que anda explorando, y me ha hecho el favor de dar algunos remedios a 
Manuelito. Pasó para Barbacoas y va al Puracé a analizar las aguas del río Vinagre. Hoy debe estar en cerro de 
Cumbal. No hay más noticias del País, y en las de Santa Fe corre que el General Mosquera es Presidente de la 
República y que su hermano es Arzobispo. Flores está en Norte América con un Ejército de mil demonios. Roca está 
haciendo confesión general. Los angloamericanos se han tragado a México como un pastelito. Yo estoy bueno. El 
doctor Orjuela ha pasado con su esposa de Gobernador de Barbacoas. Hasta el correo que viene.” (Rodríguez, 
“Extracto sucinto de mi obra, 1954, pág. 376). Y sobre los fondos solicitados por Pineda para la manutención 
de Rodríguez, Escribe Emeterio Gómez: “Para el establecimiento del señor Rodríguez se ha adelantado cuanto 
ha sido posible” (RM 446, folio 192) 

5 Son varias las correspondencias entre Pineda y el presidente Mosquera sobre la llegada del educador y 
sobre la solicitud de fondos para financiarlo. Pineda anuncia la llegada de Rodríguez así: “solo he regresado 
plar} despachar la correspondencia, y asegurarle un alojamiento cómodo al ilustrado patriota Simón Rodriguez 
antiguo ayo y confidente del GfeneJral Bolívar ¡Ah! no le hablaré nada de esta respetable sujeto, porque recuerdo, 
que lo hice con vivo interés en el año pasado y V[uestra] E[xcelencia] no me contestó nada, enteram[enjte nada, le 
he pagado parte de su su viaje y en el proccimo d[iciem]bre, después que me deje bien establecido aquí la escuela 
normal seguirá conmigo a Bogotá voy a llevar a V[uestra] Elxcelencia] esta reliquia cuyo merito sobresaliente se 
conocerá tratándolo y viéndolo [Inserto: ocupado] en la grandiosa obra de dar luz al entend[imien]to embrutesido; 
desde q[u]e he tratado y conocido al s[eño]r Rod[ríguejz hasta he renunciado a la pación de vicitar la Europa, y 
el tiempo q[u]e había de consagrar en esto pienso ocuparlo recibiendo lecciones de este Rusó [!]. No crea q[uJe 
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Si bien Pineda desarrolló un proyecto colonialista singular durante su ejercicio en car- 
gos públicos en zonas de frontera, este no fue el único en emprender la colonización inter- 
na al explorar y documentar personalmente vastas selvas y ríos inexplorados, atraer nuevos 
pobladores y utilizar las sociedades filantrópicas para su educación a la luz de la ideología 
del progreso decimonónico, es el caso de su cercano amigo y dedicado colonizador interno 
Elías González con quien intercambia numerosas comunicaciones respecto a planes de 
fundación de poblaciones en Tolima y Huila’, y también sobre las actividades de las socie- 
dades filantrópicas en la comunidad (RM 446, Folio 109; RM 446, Folio 127), comenta 
González sobre el trabajo de Pineda: “complacido al ver que mi más querido amigo es quien 
marcha a la vanguardia en la noble e interesante empresa de ilustrar y de moralizar las 
masas populares de su patria” (RM 439, Folio 126). 

Pineda también se apoyó constantemente en misioneros jesuitas como José Layner, quien 
emprendía viajes a través de las selvas del sur de Colombia para evangelizar indígenas, y 
cuyos reportes le servían a Pineda para conocer e incorporar a su colección diarios de viaje 
sobre la geografía todavía indocumentada (RM 444, Folio 201), lo que le mereció, según el 
propio Anselmo Pineda ante el congreso, el reconocimiento de autoridades en la materia 
como el geógrafo y militar Agustín Codazzi, quienes reconocen la valiosa información apor- 
tada por esos documentos, dice el coronel Pineda sobre carta de Codazzi: “en que manifies- 
ta que la “colección Pineda” suministra conocimientos nuevos i mui importantes sobre la 
jeografia de territorios que nadie ha recorrido ni descrito tales son los Andaquies i Caqueta”? 

No solo la agencia colonialista del coronel Pineda expandió sus alcances coleccionistas, 
también lo hizo para coleccionistas de raros artículos de historia natural como su colaborador, 
antes enemigo en el campo de batalla de El Santuario, Daniel O'Leary quien le solicita a Pi- 
neda: “Si en aquel distrito nuevo para la civilización encuentra V. algunos objetos de Historia 
natural que llamen la atención, suplico a V. los compre para mí, avisando de su clase y valor. 
Algunas muestras de fósiles y minerales serán muy apreciadas” (Moreno de Ángel, 1981, p.67) 

A su regreso a Bogotá en 1848, el coronel Pineda ocupa su curul en la Camara de Re- 


presentantes, y allí se opone a la expulsión de los jesuitas por considerarlos indispensables 


le ecsajero, mi gfenejral, estoy encantado con el s[eño]r Rod[rigue]z y V[uestra] Elxcelencia], V[uestra] E[xcelencia] 
puede dejar monumentos perdurables. [...] No por esto mis afanes se han contraído únicamente a este punto, sino 
que mis atenciones se han dirijido a otros varios medios de adelantar estos pueblos moralisar y formar constum- 
bres públicas y escuelas y caminos, he aquí programa” (Carpeta 41, Pieza 140, folio 21998) 

Por la correspondencia de González con Pineda se puede establecer la cercanía del primero con el misione- 
ro jesuíta José Layner con el cual efectivamente colaboró en Antioquia en tareas civilizatorias. (RM 444, Folio 
201); Además, González a su llegada a Neiva en 1842, le comenta a Pineda: “Hace 20 días que llegué á esta con 
el objetivo de fundar un pueblo i ya tengo 200 vecinos cabezas de familia, voy a dar como 2 anegadas de monte, i 
como una legua de camino hecho”. (RM 446, Folio 100) 

Memorial dirigido al congreso. No hay registro de la carta de Codazzi dirigida a Pineda. (RM 640, Pieza. 58) 
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para la causa civilizatoria. Durante los siguientes años se dedicó a asuntos personales’, al 
intercambio de documentos, arreglo de la colección y al debate público mediante publica- 
ciones sobre la importancia de la colección Pineda para la república (RM 640, Pieza 60). 
Gestión que procuró la legitimidad de la colección documental entre la élite intelectual y 
política con artículos de autoría propia o de terceros para convencer de la conveniencia de 
su compra por parte del congreso colombiano”. Resulta imprescindible señalar que esta fue 
una ardua tarea con encendidos debates sobre la relevancia de la colección, al respecto 


Pineda señala en comunicación al congreso: 


[...] En cuanto a la importancia de la colección, apelo al testimonio de los que la han visto, 
la comisión nombrada por el cuerpo legislativo; y los que ni a estos, ni a los otros quieran 
creer, suspendan su juicio hasta la próxima reunión imparcial del congreso en que los señores 
Maldonado, Miranda y Paz habrán acabado su trabajo, a ellos me refiero al público impar- 
cial, a los amigos que tan generosamente me han franqueado algunos documentos; y para 
decirlo de una vez, a los tres encargados de negocios de Francia i a la Gran Bretaña i al señor 
Bucconi encargado de la numeración Romana, que han hecho más aprecio de mi penoso 
trabajo que el recién venido que en un virulento articulo ha opacado mi colección basando 
su artículo sobre supuestos falsos unos, y equivocados otros (RM 640, Pieza 60) 


Este esfuerzo por llamar la atención hacia la colección documental y persuadir a la opinión 
pública de su relevancia, respondió también a otras circunstancias personales que obliga- 
ron a Pineda a publicar los catálogos y a buscar, incluso en Estados vecinos o europeos, el 
apoyo que con tanta dificultad obtendría en Colombia'”. Esa contradicción entre ofrecer 
la colección al público o conservarla para sí, dado que a los ojos del coleccionista todavía 
permanecía inacabada, pone de manifiesto el nivel afectivo del coleccionismo y el coste 


personal de llevar a cabo esta empresa, por lo que el coleccionista manifiesta: 


8 En carta con María Josefa Valencia, Pineda se refiere al proceso de divorcio iniciado por este y posible gracias 
a la Constitución liberal de 1853: “Las diarias i multiplicadas ocupaciones de mi colección me habian impedido 
adelantar el juicio de divorcio provocado por ti i entablado por mi por exitacion tuya, según se vé de los docu- 
mentos que reposan en mi poder. Aquellas dificultades han desaparecido ¡ al presente me encuentro en estado 
de continuar esta lucha sin tregua, de 19 años que tal vez, i sin tal vez, vá a finalizar con mucha vida”. (RM 622. 
Pieza. 126) 

9 Dice el redactor del periódico oficial a Pineda: “me excita para que le recomiende en el periódico oficial la 
importante empresa que Ud ha acometido de formar la colección estadística e histórica de los documentos cele- 
bres e importantes que se han publicado en la Nueva Granada desde una época remota Con mucho gusto haré 
la recomendación de su colección en nuestro periódico oficial" (RM 444, folio 244). Son varias las cartas que 
demuestran el respaldo de amigos en tertulias informales y publicaciones periódicas a la colección (RM 439, 
folio 81; RM 445, folio 365; RM 445, folio 367; RM 437, folio 33) 

10 Fueron varias las comunicaciones que demuestran pretendidas negociaciones con el gobierno británico, 
por intermedio del representante de la legación británica en Bogotá, Daniel O'Leary, para la adquisición de 
la colección Pineda, (Miscelánea 1440, Pieza 8. Biblioteca Luis Ángel Arango). Así como la respuesta negativa 
del gobierno venezolano a la propuesta del coronel para venderles la colección. (RM 444, folio 245) 
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Jamás habia pensado desprenderme de la copiosa colección de documentos oficiales que 
poseo y de que voy a hablar, adquiridos a costa de mil privaciones desde 1825. Pero repen- 
tinamente sin casi sentirlo me encuentro al presente con enfermedades de cuidado, adqui- 
ridas en el servicio, que me están inhabilitando para ocuparme en una vida activa, y esta 
circunstancia fatal, agregada al deber de dar educación á 4 hijos me han determinado con 
harto pesimismo a publicar los índices de una parte de los documentos que tengo en mi 
poder y solicitar la aquiescencia de los hombres ilustrados de las 3 republicas en que se 
dividió la antigua Colombia para generalizar dichos documentos. Estoy persuadido que 
contando con las luces y la experiencia de los que tengan un mediano conocimiento de los 
consabidos documentos a la vez que se les puede dar el carácter de utilidad, que es lo que 
más me ha determinado a hacer la publicación podré desprenderme de ellos con un me- 
diano provecho (RM 630, Pieza 24) 


Finalmente, se realizó la entrega de 1100 volúmenes y con esta la solicitud de baja del ejér- 
cito por parte del coronel Pineda, pero unos meses más tarde es apresado por sospechas 
de su participación en la insurrección conservadora instigada por Pastor y Mariano Ospi- 
na Rodríguez. Una vez puesto en libertad, Pineda es nombrado custodio y curador de la 
Biblioteca Nacional por el vicepresidente de turno José de Obaldía. 

Llegados a este punto, fueron dos los eventos trascendentales en la vida del coronel, por 
una parte, logra que su colección sea reconocida y aceptada oficialmente y, por otra parte, 
termina su matrimonio con la payanesa María Josefa Valencia, lo cual afecta poderosa- 
mente sus relaciones con ilustrados de Popayán, pero también abre nuevas posibilidades 
de relación con la élite costeña después de que contrajo matrimonio con Ana María Danies 
Kennedy a finales de la década del 50. 

En lo que resta de los años 50, Anselmo Pineda se reincorpora al ejército para llevar a 
cabo el golpe de estado, en el que participaron mancomunadamente liberales y conservado- 
res, en contra del presidente José María Melo y sus políticas económicas favorables hacia el 
artesanado (RM 447, folios 51-56). Pineda además contrae matrimonio por segunda vez e 
invierte buena parte de la contraprestación concedida por su colección en la producción de 
quina y caucho en el Huila y en continuar con su colección para una posterior entrega. Los 
esfuerzos coleccionistas de Pineda durante este último periodo se sirvieron del cargo que 
desempeñó en Magdalena como intendente de hacienda nombrado por el presidente Maria- 
no Ospina Rodríguez, quien además le encargó al coronel civilizar, pacificar e insertar en los 
circuitos económicos a la Guajira (RM 441, Folio 65). Este cargo le permitió a Pineda expan- 
dir su poder político, fortalecer la sociedad de fomento a la industria que fundó (RM 440, 
folios 439, 445) y tener acceso privilegiado tanto a oportunidades de negocio con comercian- 


tes extranjeros para su negocio de quinas (RM 445, folios 243, 245), como oportunidades de 
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negocio con agentes locales para su parentela (RM 445, Folio 272), así como también conec- 
tarse a fuentes documentales inéditas (RM 447, folios 175, 181, 182, 198). 

Años después es encargado en el arreglo de los archivos de la Tesorería General del 
Estado (RM 640, Pieza 114). Al respecto recibe la siguiente comunicación que no solo 
demuestra el reconocimiento social alcanzado por Pineda en materia de organización y 
catalogación de archivos documentales, sino que también, en tanto que experto como 
ningún otro en materia de archivo", obtiene la confianza pública para ser encargado de 


tareas sensibles para el Estado, al respecto Pineda recibe la siguiente carta: 


[..] en honor de la verdad debo decir a usted que a lo que se queria dar el nombre de ar- 
chivo en la tesoreria jeneral, es un cuarto donde estaban amontonados en una confusion 
incomplicable, libros, legajos, documentos de deuda pública de la mayor importancia como 
se ha visto despues, restos de [ilegible], y en fin objetos de todas clases tan cubiertos de 
polvo tan revueltos que costaba trabajo creer que aquello hubiera podido ser algun tiempo 
el archivo de una de las oficinas mas importantes de la Republica. Fui testigo muchas veces, 
que necesitando el gobierno ó algun particular un dato, por importante que fuera, habia 
que renunciar a encontrarlo si se inferia que pudiera estar en el archivo, pues ni siquiera 
se pensaba en este, y decir, tal documento debe estar en el archivo, era lo mismo que decir, 
no existia. [...] Cuando sali de la tesoreria, ese cáos de papeles tomaba ya forma y usted 
habia clasificado muchos documentos importantes. Pero lo que no quiero dejar de consig- 
nar aqui es el importantisimo servicio que usted ha hecho a la nación desenterrando del 
polvo documentos de gran valor, tales como esqueletos firmados de vales de manumición, 
cupones de renta sobre el tesoro y muchos otros de un valor considerable que si hubieran 
caido en manos menos dignas, como desgraciadamente ha sucedido ya, habrían causado 
grandes perjuicios a nuestra hacienda [...] Me consta, asi mismo, que cuando por falta de 
fondos en la tesoreria jeneral ó por cualquier otro motivo, no se pagavan sus ayudantes 
usted les daba adelantado de su bolsillo (RM 640, Pieza 114). 


Es importante cerrar esta condensada biografía del coronel Anselmo Pineda, haciendo hin- 
capié en un aspecto clave de su estrategia coleccionista, consistente en el uso de su prestigio 
personal y la legitimidad de su colección, para solicitar formalmente a las administraciones 
regionales la remisión de cuanto documento fuera impreso por estos gobiernos. De manera 
que ya no dependía de intermediarios que reunieran y le enviaran documentos, pues ya 
gozaba de una relación directa con los gobiernos locales que destinaban algunos recursos 


para alimentar su colección como si se tratase de un depósito legal, dice Pineda: 


Anselmo Pineda, por su larga experiencia en archivos públicos y actividad coleccionista, expresa la urgencia 
de profesionalizar al archivista: “Este ramo merece tanta más profesión cuanto es mayor el deseo nacional que 

se advierte ya en algunos hombres ilustrados; deseo que en todos los países civilizados de la tierra ha llamado su 
atención” (RM 630, Folios 24-27). 
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Desde 1865 y aun desde mucho antes que me propuse compaginar y arreglar la nueva 
Colección adicional que debo enlazar con la otra, dirigi circulares y comunicaciones ofi- 
ciales a los ciudadanos presidentes de los estados sobre este asunto y lo relacionado con los 
impresos que se acompañan. Pero se me ha cobrado ultimamente por el oficio que original 
acompaño con la cubierta, y de seguro seguiran cobrandome por todas las notas oficiales 
y documentos importantes que para evitar su estrabio vengan con cubierta. Ultimamente 
han aparecido entre memorias, mensajes, proclamas del Libertador y del General Santan- 
der como mil otras piezas importantes de que no tan solamente no tenia noticia, sino que 
en publicaciones de 1829 habia asegurado y repetido despues no existian. [...]. Por estas 
razones y otras que omito por ser cansado; en atencion al absoluto abandono que he hecho 
de mis negocios particulares desde hace tanto tiempo; por el desesperante anhelo de com- 
plementar este aservo publico en pro de mi patria (RM 640, Pieza 111). 


De la misma manera y no menos importante, el coronel le solicita a la oficina de correos 
que no se le cobre el envío de documentos pues se trata de un asunto de importancia oficial 


por las siguientes razones: 


Primero: Poco más poco menos desde cuando han notado ustedes que con mucha mas 
frecuencia que antes los funcionarios de los Estados y aun los Presidentes de dichos Estados 
me remiten, memorias, codigos de leyes y toda una a una las publicaciones oficiales que se 
hacen en las Capitales. Segundo: Si han notado ustedes que viniendo comunicaciones 
oficiales con alguna frecuencia relativos a la segunda Colección de Obras Nacionales que 
hubiera ya compajinado si tuviera piezas que tengo que contestarle oficialmente y si a 
pesar de palpar que es sobre asuntos oficiales me han cargado el porte de los impresos que 
se remiten al Estado soberano del Ystmo (RM 640, pieza 112). 


Finalmente, Anselmo Pineda entrega una segunda parte de su biblioteca en 1868 y se reti- 
ra a su casa en Fusagasugá, Cundinamarca. Muere en 1880 dejando las huellas de una vida 
de guerra, entrega a la república y a la actividad intelectual marcada por un pleno conven- 


cimiento patriótico cristalizado en su colección. 


Metodología 

En ese apartado se detallará la metodología empleada para analizar el epistolario del coro- 
nel Pineda ofreciendo una nueva perspectiva para leer y procesar un corpus documental 
voluminoso. Son varios los componentes que hacen parte del proceso y varias las relacio- 
nes entre estos, pues los distintos enfoques para el tratamiento de datos son capaces de 
generar nueva información que resulta provechosa para otros procesos de cómputo. Es el 


caso del modelo final de aprendizaje automático que emplea atributos generados en cada 
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uno de los procesos de exploración, georreferenciación, indicadores relacionales e indica- 
dores de minería de textos aplicados al corpus. 

Antes de explicar cada proceso, vale la pena comentar el procedimiento de captura de 
datos que se realizó de las 3613 cartas que hasta ahora componen el epistolario Pineda. Este 
proceso básicamente consolida en una base de datos la información de cada carta, tal como: 
remitente; destinatario; lugar y fecha de elaboración; descripción del contenido; transcrip- 
ción de al menos 500 cartas y una columna con un código binario que servirá para iden- 
tificar la relación de la carta con el coleccionismo y también como etiqueta de evaluación 
cuando se clasifiquen los colaboradores coleccionistas. 

Una vez consolidada la base de datos, se exploró la distribución de los datos mediante 
estadísticas descriptivas básicas como frecuencia de remitentes y destinatarios, frecuencia 
de contactos epistolares relacionados y no relacionados con el coleccionismo, frecuencia 
de términos y su visualización sobre un eje temporal. Más tarde se llevó a cabo la explora- 
ción de las redes sociales del coronel mediante la generación de gráficos de red divisibles 
en duraciones temporales, pero que para el presente artículo se optó por un grafo de la red 
completa, aun así, se pueden distinguir interacciones interesantes. El análisis de interac- 
ciones permite también producir algunos indicadores de centralidad e intermediación 
útiles para identificar los nodos más importantes en la topología de la red, y además útiles 
para el modelo de aprendizaje automático posterior. 

Simultáneamente, se procedió a georreferenciar mediante el geoetiquetado automático 
de la toponimia del lugar de elaboración de cada documento para producir mapas de dis- 
tribución espacial del epistolario. Cada mapa comprende la ubicación de los lugares de 
producción de las cartas dentro de duraciones específicas de tiempo dadas por aquellos 
momentos de cambios abruptos en términos relacionales, identificables en el paso anterior 
y sustentados en la biografía de nuestro personaje. Por último, queda una de las fases más 
importantes y complejas en este estudio, conocido como Procesamiento de Lenguaje Na- 
tural (NLP), que busca producir nuevos atributos derivados de la minería de texto, además 
de servir para el reconocimiento de entidades (NER) como nombres de personas, lugares 
u organizaciones y para el cómputo de temas principales dentro de una colección docu- 
mental. Cada uno de estos procesos permite el desarrollo de diferentes herramientas se- 
cundarias como un sistema de recomendación documental, basado en el cálculo de la se- 
mejanza (cosine similarity) de vectores numéricos que representan cada documento en 
tanto que conjunto de palabras vectorizadas según su identidad numérica, y además una 
interface con los temas principales basada en una colección de diccionarios conformados 


a partir de conjuntos de tres palabras, trigramas, y en un modelo de bolsa de palabras. 
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Figura 1. Esquema de la metodología sobre el levantamiento de datos en archivo. 


Finalmente, todos los atributos numéricos generados en todas las fases descritas, además 
de algunos atributos cualitativos originales como la fecha de escritura de la carta, fueron 
el insumo para el algoritmo de aprendizaje automático que implementa el modelo Bosque 
Aleatorio (Random Forest) para clasificar cada registro con base en su probabilidad de 
pertenecer a un grupo u otro: colaborador y no colaborador. La clasificación usa una bús- 
queda informada de hiperparámetros para encontrar valores óptimos de clasificación, esta 
búsqueda se compone de una primera búsqueda aleatoria de hiperparámetros y luego de 
una búsqueda ordenada con los mejores hiperparámetros de la búsqueda aleatoria. Para 
evaluar la efectividad del algoritmo se usaron las etiquetas binarias insertadas por el equi- 
po de investigación en la base de datos inicial y se computó una matriz de confusión que 


muestre los errores y aciertos del proceso de clasificación automático. 
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Las librerías empleadas para el análisis son: I) Pandas para la gestión de la base de datos; 
IT) Seaborn y Matplotlib para las visualizaciones; III) Networkx y Holoviews para generar 
las redes de individuos; IV) Geopy y Folium para la georreferenciación y visualización web; 
V) NLTK, Gensim, Polyglot, pyLDAvis y Spacy para el procesamiento de lenguaje natural; 


VI) Scipy y Scikit-learn para implementar el modelo de aprendizaje automático. 


Análisis del epistolario con Python 


Las técnicas antes descritas permiten 
diseccionar con sumo detalle el corpus 
epistolar, de manera que, dada la exten- 
sión de un análisis que considere toda 
la vida de Pineda, en esta sección solo 
nos concentramos en la época más 
activa del coronel y relacionada con su 
coleccionismo, que como ya vimos en 
el apartado biográfico, tiende a coinci- 
dir con el apogeo de su carrera militar 
y política. 

En este sentido, conforme Pineda 
ganó mayor protagonismo como figura 
política y militar, mayor fue su capaci- 
dad de convocatoria para solicitar y 
recibir documentos para la colección, 
en especial durante los años que 
precedieron a la primera entrega. Es 
decir, a medida que la carrera política 
del coronel iba en ascenso, también lo 


hacía el número de cartas y, por ende, 


el número de contribuciones que las acompañaban, no obstante, el significativo esfuerzo 


del coleccionista no solo radicó en solicitar documentos, sino en persuadir de la impor- 
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Figura 2. Número de epís 


A Contactos epistolares 


mA Menciones al coleccionismo 


tolas y menciones al colec- 


cionismo por remitente en 1848-1849. 


tancia de la colección en tanto que archivo de Estado (RM 630, pieza 24). 
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Figura 3. Actividad epistolar de Pineda, por número, y menciones al coleccionismo, por año. 


Las gráficas anteriores, dedicadas a la actividad epistolar y coleccionista, muestran la ten- 
dencia de que, a mayor número de contactos epistolares, mayor la cantidad de contribu- 
ciones a la biblioteca Pineda. Por una parte, en la primera gráfica de barras aparece Josefa 
Acevedo de Gómez encabezando la lista, seguida de José María Duque Pineda, primo del 
coronel; Juan Nepomuceno Duque, primo; y otros corresponsales entre familiares y amigos 
de los cuales sobresalen Joaquín Acosta, Manuel María Quijano, Andrés Arroyo, Domingo 
Caicedo, Daniel O'Leary y Manuel María Paz. Cabe hacer la salvedad de que si bien duran- 
te el periodo entre 1848-1849, se da la mayor actividad coleccionista, antes existieron cola- 
boradores muy importantes como la del cura dominico Antonio María Gutiérrez” quien, 
hasta meses previos a su muerte en 1846, aportó 80 epístolas de un total de 552 cartas que 
en el epistolario versan sobre el envío de documentos para la biblioteca Pineda. 

Por otra parte, el segundo gráfico muestra la actividad epistolar durante toda la vida 
del coronel Pineda y las menciones al coleccionismo rastreadas con palabras clave como 
manuscrito, colección, gaceta, biblioteca, cuaderno, cartilla popular, libro, compilación o 
memorias, entre otros términos recurrentes en cartas que acusan envío adjunto de docu- 
mentos. Esta gráfica también permite evaluar la asociación entre número de contactos y 


número de contribuciones, pero además posibilita la identificación del auge simultáneo de 


12 Con toda certeza, Antonio María Gutiérrez fue uno de los amigos más cercanos de Anselmo Pineda. El sac- 
erdote fue abogado, teólogo, orador, profesor y senador, pero además fue quien, a su regreso de Jamaica 
posterior al exilio a causa de su inclinación realista previa a la independencia, reclutó al joven Pineda para 
el Ejercito de la Libertad de José María Córdova en 1829 (Brown, 2012). Por otra parte, Gutiérrez participó 
en la fundación de la masonería en Nueva Granada junto a Francisco de Paula Santander entre 1820-1825 y 
respaldó a Pineda con sus buenas relaciones públicas e influencia política hasta 1846. (RM 446, folios 85-86). 
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actividad epistolar y coleccionista entre 1848-1849 previo a un abrupto descenso en 1850 y 
a la primera entrega en 1851. 

El estudio de redes sociales aplicado a un corpus de correspondencia personal tiene 
como principal utilidad la visualización de las interacciones entre sujetos y la representa- 
ción de su relevancia relacional a través de códigos visuales de color y tamaño. Semejante 
a un mapa geográfico, un mapa relacional permite ubicar nodos y trazar los caminos o 
vínculos que los interconectan, así como calcular el grado de centralidad o intermediación 
de cada uno de los individuos en consideración a los vínculos que posea. 

En primer lugar, la centralidad, representada por color, es el coeficiente del número de 
contactos que un nodo particular tiene en la red, es decir, se basa en el hecho de que nodos 
importantes o populares tienen mayor número de contactos epistolares. En segundo lugar, 
la intermediación, representada por tamaño, mide el número de veces en que un nodo 
específico está presente en el camino más corto entre otros dos nodos en la red, es decir, 
los nodos con mayor grado de intermediación tienen un rol significativo en la comunica- 
ción y flujo de información. No menos importante es la configuración topológica de la red, 
pues resulta determinante en el acceso de los nodos a recursos e información que, al estar 
ubicados de manera desigual y asimétrica en la estructura social, poseen grados asimétri- 
cos de inserción y posibilidades de acceso a recursos sociales. La red que se presenta en la 
figura 4, es de tipo egocentrado, dado que el nodo central (ego) aglomera entorno a sí a la 
mayoría de los vínculos existentes en la red que abarca toda la duración comprendida 
entre la primera hasta la última carta del epistolario. 

Esta red comprende el rango de 1806-1880 y ofrece gran cantidad de información visual, 
en ella se prefirió destacar con etiquetas los nodos de mayor centralidad. Se observa al ego 
principal, el coronel Anselmo Pineda, seguido por el general Joaquín Acosta, ambos com- 
partían el proyecto coleccionista privado con propósito público, tal y como se describió en 
el apartado biográfico, pero también se muestran otros personajes relevantes en la historia 
del siglo XIX como Tomás Cipriano de Mosquera quien, como se comentó, fue un amigo 
coleccionista de Pineda en su faceta naturalista y botánica (RM 447, Folio 86, 90-91), se 
encuentran también Antonio María Gutiérrez, Domingo Caicedo, Pedro Alcántara Herrán 
y además se muestran otros nodos importantes en esta estructura social reconstruida des- 
de el epistolario, por ejemplo, se observa la importancia relacional de la segunda esposa de 
Pineda, Ana María Danies Kennedy, quien fue para el coronel la vía de acceso a la élite 
costeña y la posibilidad de emprender los proyectos del gobierno central para la inserción 
de las zonas de frontera al circuito económico. Danies también posee el mayor indicador 


de intermediación observable en la gráfica de barras incluida, seguida por la primera es- 
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posa de Pineda, Maria Josefa Valencia, quien fue a su vez la via de acceso a la élite payane- 
sa décadas antes. Estos altos indices de intermediacion, con los que cuentan ambas esposas, 
confirman la hipótesis sobre la importancia de los vínculos matrimoniales para conectar 
al coronel Pineda con las élites a las que pertenecieron cada una de estas mujeres, y que 
terminaron por impulsar tanto la carrera política y militar, como el proyecto coleccionista 


del coronel Pineda. 
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Figura 4. Red social de Anselmo Pineda: Red epistolar-coleccionistas 1806-1880. 


La anterior figura, que representa la red epistolar centrada en Pineda, se expande y aclara 


en el siguiente indicador de intermediación de la figura 5: 
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Indicador de intermediación 
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Figura 5. Complemento a la red epistolar a través de sus indicadores de intermediación. 


Otro matiz interesante al que se puede acceder mediante esta aproximación en HD es el 
carácter espacial del epistolario que, a través del lugar de elaboración de las cartas georre- 
ferenciadas, permite estudiar la distribución espacial de las redes epistolares y el espacio 
de circulación de documentos puesto que, como ya se explicó, la correspondencia funcio- 
naba como mecanismo para el tráfico de impresos y manuscritos. En este sentido, un mapa 
del epistolario hace posible dimensionar el alcance de las colaboraciones coleccionistas que 
Pineda sostenía con los viajeros a Europa y con proveedores locales. 

Al respecto, en respuesta a las solicitudes del coleccionista, un remitente desconocido 


le cuenta a Pineda desde París: 


No he olvidado las encarecidas recomendaciones de ud para solicitar las obras i escritos de 
todo género relativos a la historia de nuestra patria desde su descubrimiento hasta hoy [...] 
Aquí no es posible conseguir ninguno de los manuscritos u obras inéditas que especialmen- 
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te me recomendó Ud, como la relación del mando del Virci, Montalvo, la de Quesada, i los 
demás documentos especiales antiguos i modernos de que Ud me halla en sus instrucciones. 
Esperaba hallar todo esto en el tiempo durante mi viaje a España, para tener copias au- 
ténticas de las interesantes piezas que Ud desea para su bella colección, i de todos los demás 
documentos que pudiera descubrir; [...] Respecto de las obras de Mútis, Cáldas, Lozano. 
D'Eluyar i demas hombres ilustrados de nuestro pais que Emile trajo, de Bogotá a Madrid, 
procuraré descubrir su paradero, i formar, si es posible, copias de las menos voluminosas i 
más interesantes, pues de los escritos sobre botánica e historia natural no será esto fácil 
porque entiendo que [mutilado] descubrir su paradero (RM 447, folio 130). 
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Figura 6. Mapa del alcance espacial en el epistolario de Pineda por países. 


En el mismo sentido, el coleccionista comenta que: 


Se han mandado sacar copias de documentos sumamente interesantes que deben existir 
en los archivos de Simancas; y otros de Europa; se han solicitado de las provincias docu- 
mentos que pongan en claro, acontecimientos pasados que el tiempo i la indolencia han 
sepultado en el olvido; como son los pormenores de la guerra de Pasto desde 1813 hasta la 
época presente, y otros muchos que son de suma importancia (RM 640, folio 60). 


Una vez señalada la potencia de explotar la dimensión espacial del corpus, podemos foca- 
lizar la atención en el procesamiento de otro atributo de las cartas, a saber, su descripción 
y transcripción. Como se describió en la metodología, el objetivo es descubrir los temas 
principales en el corpus y discriminar todas aquellas entidades útiles para acceder a otra 


dimensión del epistolario, todavía en proceso, en lo relativo a personas o lugares referidos 
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en el contenido de cada carta. Las siguientes graficas muestran, por un lado, la proporcion 


de entidades reconocidas. 
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Figura 7. Proporción de entidades nombradas en el corpus. 


Por otro lado, se incluye una gráfica del resultado del modelado de temas que muestra los 
términos más importantes extraídos mediante un popular algoritmo denominado Latent 
Dirichlet allocation (LDA), que permite la organización y entendimiento, desde la lectura 
distante, de los temas subrepticios, pero significativos en una gran colección de textos 
(Jánicke, 2015). Empero, merece la pena decir que el modelado de temas no garantiza 
necesariamente que los términos sean fácilmente interpretables por el ser humano, sin 
embargo, existen métricas para determinar el grado de coherencia, en este caso, un indi- 
cador intrínseco basado en que la ocurrencia de un término sobresaliente debe ser prece- 
dida por otro término sobresaliente, en otras palabras, que la probabilidad de un término 
sobresaliente debe ser más alta en un documento si este ya contiene un término sobresa- 
liente, esto es el cálculo de la probabilidad condicional de ocurrencia de un término siem- 


pre que ya exista otro término importante en el documento. 
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Slide to adjust relevance metric:2) Ss. 
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1. saliency(term w) = frequency(w) * [sum_t p(t | w) * log(p(t | w)p(t))] for topics t; see Chuang et. al (2012) 
2. relevance(term w | topic t) = A * p(w | t) + (1 - A) * p(w | t)/p(w); see Sievert & Shirley (2014) 


Figura 8. Identificación de términos sobresalientes. 
La siguiente gráfica muestra el índice de coherencia Umass para todas las iteraciones del 


modelo, dando como resultado que la mejor coherencia esta alrededor de 30-35 temas por 


su cercanía al o, coherencia perfecta. 
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Figura 9. Gráfica del índice de coherencia en modelado de temas. 


La lista de términos más sobresalientes incluye palabras como colección, documentos, 
impresos, gobierno, favor, publicación, gobernador, escritos, patria, viaje y pueblo, además 
de otros menos claros como trabajo y administración. 

Hasta ahora se han mencionado 2 tipos de procesamiento de lenguaje natural para 
tratar el archivo epistolar de Anselmo Pineda, pero para el siguiente paso que consiste en 
introducir todas las entradas de la base de datos en un algoritmo de aprendizaje automá- 
tico, es necesario darle una identidad numérica para hacerlo procesable. Existen varias 
maneras de surtir esa transformación, en esta investigación se usará la estadística TF-IDF 
para convertir cada palabra en el valor probabilístico dado por la frecuencia de un término 
en un solo texto dividida por el número de textos en el que aparece ese término, de mane- 
ra que las palabras más frecuentes en un idioma y menos significativas, palabras vacías, 
son filtradas. Adicionalmente, se transforman los demás atributos cualitativos como nom- 
bres y lugares a su identidad numérica mediante one hot encoding, que busca codificar 
todas las categorías en una matriz binaria de ceros y unos. 

Al modelo de aprendizaje automático supervisado Random Forest, elegido por obtener 
mejores resultados con este corpus que otros algoritmos, se le pasa como insumo la nueva 
base datos transformada desde la original con las coordenadas geográficas, fechas, conte- 
nidos de las cartas, nombres y demás datos para que tome como base de conocimiento el 
80% de la muestra y realice la predicción sobre el 20% restante usando validación cruzada 
para evitar fuga de datos y, en consecuencia, sobreajuste del modelo. Por otra parte, se 
aplicó un modelo de aprendizaje no supervisado para identificar las agrupaciones geográ- 
ficas presentes en el epistolario, de acuerdo con el valor de las distorsiones calculadas entre 


las distancias de los elementos de una agrupación a su centroide respectivo. 
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Los siguientes mapas muestran el resultado de aplicar aprendizaje no supervisado, 
junto a la gráfica de distorsiones para determinar el número óptimo de agrupaciones, y el 


resultado del aprendizaje supervisado. 


Agrupaciones 
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Figura 10. Mapas de agrupaciones geográficas y de clasificación automática. 


Tras un examen más detallado del mapa de agrupaciones geográficas se puede determinar 
que estas coinciden, a grandes rangos, con cada ensanche o expansión de las redes sociales 
epistolares de Pineda al considerar el rango temporal de cada agrupación. Dicho esto, se 
calcula que la proporción de cartas en cada agrupación espacial es la siguiente: región sur 
occidente contiene el 19% de corresponsales en un rango temporal entre 1836-1870, coin- 
cidente con su primer matrimonio; la región norte contiene el 19% de corresponsales en 
un rango temporal entre 1852-1871, aproximadamente coincide con su segundo matrimo- 
nio; la región centro contiene el 39.7% comprendido en un rango temporal entre 1830-1876, 
que responde a las redes de parentesco y patronazgo tras la reconfiguración de las redes de 
poder; la región centro occidente conserva el 22.3% entre 1816-1877, coincidente con la 
mudanza de Pineda a la capital. Lo anterior solo corrobora la hipótesis de que a medida 
que Pineda expande sus horizontes relacionales, a través del matrimonio y las relaciones 
políticas, también expande su influencia en el territorio. 

En cuanto a la evaluación del modelo predictivo, resulta muy útil el computo de una 
matriz de confusión para determinar que tantos aciertos o desaciertos tuvo el algoritmo. 
Este paso, a juicio del investigador, sirve más para probar qué tan útiles son los datos uti- 
lizados para la predicción, que para probar la utilidad del algoritmo. Los resultados son los 


siguientes: 
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Tabla 1. Matriz de confusión. 


Valores reales 


Negativo Positivo 
Predicción Negativo Verdadero Negativo (608) Falsos negativos (0) 
Positivo Falsos positivos (36) Verdadero Positivo (95) 


De la muestra destinada a la predicción (20%), el algoritmo alcanzó una precisión de 0.95, 
una sensibilidad de 0.725 y una exactitud de 0.95. Esto quiere decir que el modelo tiene 
una excelente capacidad de predicción de positivos (precisión), así mismo una alta tenden- 
cia a producir falsos positivos (sensibilidad) y, finalmente, una buena capacidad de produ- 
cir predicciones correctas (exactitud). Estos valores, al lado de la matriz de confusión 
permiten evaluar el comportamiento del modelo que, para este caso, se consideró menos 
riesgoso un falso positivo a un falso negativo, dados los costos temporales de verificación 
para los falsos negativos. En consecuencia, podríamos concluir que el modelo es aceptable 


al ponderar falsos positivos, falsos negativos y total de aciertos. 


Conclusión 

Como se evidenció en este artículo, las diversas y potentes metodologías de las humanida- 
des digitales tienen la capacidad de colocar al investigador en una posición privilegiada al 
momento de enfrentarse a un complejo y voluminoso corpus documental que, en este caso, 
permanecía inexplorado, tanto como la figura histórica a la que perteneció y quien sin 
duda se descubre como un personaje clave para el estudio de la vida política e intelectual 
del siglo XIX. El archivo epistolar de Anselmo Pineda es el laboratorio perfecto para apli- 
car metodologías experimentales que sean capaces de asumir la retadora tarea de hacer 
historia, a la vez que un aporte metodológico poco convencional en el campo de las HD 
aplicado a la investigación social del siglo XXI en Colombia y a la historia digital. Aún son 
muchas las posibilidades abiertas para el estudio del epistolario con metodologías distintas 
a las presentadas o con metodologías semejantes, pero aplicadas a otros epistolarios del 
siglo XIX, en un esfuerzo por comprender las dinámicas sociales de uno de los periodos 
más interesantes en la historia americana. 

Si bien la combinación de las diversas técnicas de análisis de datos expuestas resulta 
muy potente en el caso estudiado, cada una de ellas constituye un campo especializado que 
valdría la pena explorar y poner a prueba con otros archivos documentales semejantes y 
epistolarios del mismo periodo. En este sentido, una de las técnicas con mayor alcance es 


el análisis de redes, pues al incorporar no solo un epistolario, sino varios epistolarios de los 
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ilustrados de mediados de siglo, seria factible producir un mapa de topologia relacional 
para la élite intelectual y politica del momento y abrir la puerta a un estudio sin preceden- 
tes que en diferentes escalas pueda incorporar las demás técnicas de análisis digital y deri- 
var en enfoques que podrían enmarcarse, bien sea, en la historia de la ciencia para el estu- 
dio del tráfico y difusión de saberes, textos y artículos científicos; en la historia cultural y 
política con el análisis de tendencias de agrupación y comportamientos sociales acorde al 
partido político, la parentela o lugar de nacimiento; o en la geografía histórica con la com- 
prensión y visualización de la estructura social de este grupo ilustrado con un énfasis en 
su distribución espacial, entre otros posibles ángulos e intereses de estudio de la historia 


de Colombia. 
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linguistic atlases 
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Universidad Nacional de Educación a Distancia (UNED) - España 


Resumen: El objetivo del presente capítulo es la presentación de algunas caracterís- 
ticas y funcionalidades del Corpus de los atlas lingüísticos (CORPAT), una herramienta 
informática en la que se almacenan datos procedentes de los atlas lingüísticos re- 
gionales del español europeo con el fin de conservar el patrimonio lingüístico que 
contienen; de servir como fuente de divulgación de la variación y la riqueza lingüís- 
tica; y de complementar los datos procedentes de corpus textuales y obras lexico- 
gráficas que permitan ampliar las investigaciones sobre el cambio lingüístico y la 
historia de la lengua española. 

Abstract: The aim of this chapter is to present some characteristics and functional- 
ities of the Corpus of Linguistic Atlases (CORPAT). This computer tool collects data from 
the different regional linguistic atlases of European Spanish to preserve the linguistic 
heritage; to serve as a linguistic resource to disseminate knowledge about variation; 
and to complement the data from textual corpora and dictionaries that allow further 


research on linguistic change and the Spanish language history. 


El presente texto fue escrito a mediados de 2021, por lo que los datos que constan él (referencias al corpus 
y número de mapas y de registros que contiene) pertenecen a ese año. A lo largo de 2022 el corpus ha 
aumentado el número de registros y desde el 1 de diciembre de 2022, CORPAT se desarrolla en el marco 
del proyecto “CORPAT-PEPLEs: corpus digital para la preservación y el estudio del patrimonio lingüístico del 
español” (TED2021-130752A-100), financiado por MCIN/AEI/10.13039/501 100011033 y por la Unión Europea 
“NextGenerationEU”/PRTR. 
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Introducción 

Desde hace más de una década, en España se está trabajando en la digitalización del atlas 
lingüístico nacional (el Atlas Lingüístico de la Península Ibérica o ALPI, Garcia Mouton 
2010, 2017; Sousa, 2020); sin embargo, buena parte de los materiales de la geolingúística 
regional no pueden consultarse todavía hoy en formato electrónico. El volumen de infor- 
mación recogido en estos atlas regionales? impresos entre 1961 y 1999, y de acceso muy 
limitado (no se encuentran en cualquier biblioteca), es excepcional: casi 7000 mapas que 
se corresponden con más de 700 puntos de encuesta, lo que supone miles de formas lin- 
gúísticas que aportan datos fonético-fonológicos, léxico-semánticos, morfosintácticos y 
etnolingiiisticos de las variedades dialectales de España. 

Actualmente, el hecho de que buena parte de los atlas regionales del español dirigidos 
por Manuel Alvar solo puedan consultarse físicamente en algunas bibliotecas universita- 
rias, y a veces de forma incompleta (pues no siempre disponen de todos los volúmenes), 
dificulta sus posibilidades de estudio y explotación tanto a investigadores como a cualquie- 
ra que esté interesado en conocer, por ejemplo, la historia lingüística de su pueblo natal o 
de otros lugares de España. Además, la forma en la que presentan los datos supone otra 
barrera para los interesados no expertos, ya que la información se recoge, en muchos de 
los mapas, en alfabeto fonético. Y, para mayor complejidad, en el alfabeto de la Revista de 
Filología Española (ARFE), un sistema de transcripción empleado en el ámbito hispánico 
que creó Tomás Navarro Tomás cuando se fundó la revista con el objetivo de servir para 
“los artículos que hubieran de requerirlo y para los estudios de dialectología, fonética y 
geografía lingüística que el Centro había emprendido” (Navarro Tomás, 1975, p.19). 

Con el fin de cubrir esta parte de la geolingiiistica europea, se ha ideado y diseñado 
CORPAT (Corpus de los atlas lingüísticos). Se trata de un corpus en el que se pretende or- 
ganizar y categorizar conjuntamente parte de la información de los atlas lingitisticos regio- 
nales (ALEA, ALEANR, ALEICan, ALECant, ALCyL, ALeCMan, ADiM, CaLiEx)? en una 


ALCyL = Manuel Alvar (1999): Atlas Lingüístico de Castilla y León. Valladolid: Junta de Castilla y León/Consejería 
de Educación, 3 vols.; ALEA = Manuel Alvar con la colaboración de Antonio Llorente y Gregorio Salvador 
(1961-1973): Atlas lingúístico y etnográfico de Andalucía. Granada: Universidad de Granada/CSIC, 6 vols.; 
ALEANR = Manuel Alvar con la colaboración de Antonio Llorente, Tomás Buesa y Elena Alvar (1979-1983): At- 
las lingüístico y etnográfico de Aragón, Navarra y Rioja. Madrid /Zaragoza: La Muralla / Institución Fernando 

el Católico de la Excma. Diputación provincial de Zaragoza / CSIC, 12 vols.; ALECant = Manuel Alvar con la 
colaboración de Carlos Alvar, José A. Mayoral, M.? Pilar Nuño, M.? del Carmen Caballero y Julia B. Corral 
(1995): Atlas lingüístico y etnográfico de Cantabria. Madrid: Arco/Libros, 2 vols. [Etnografía y láminas de Elena 
Alvar]; ALEICan = Manuel Alvar (1975-1978): Atlas lingüístico y etnográfico de las Islas Canarias. Las Palmas de 
Gran Canaria: Publicaciones del Excmo. Cabildo Insular, 3 vols. 

Quiero hacer constar mi agradecimiento a los autores del ALeCMan, la Dr.? Pilar García Mouton y el Dr. Fran- 
cisco Moreno Fernandez; del ADIM, la Dr.? Pilar García Mouton y la Dr.? Isabel Molina Martos; y de CaLiEx, el 
Dr. José González Salgado, por su apoyo en el inicio del desarrollo esta herramienta. 
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base de datos espacial consultable en linea. Antes de presentar la herramienta (epigrafes 
3-4), se describe brevemente la historia de la relación que la geolingiiistica ha mantenido 


con la tecnología (epígrafe 2) y algunos de los resultados obtenidos de su aplicación. 


2. La tecnología en la geografía lingüística 

La geografía lingüística nace en Europa a finales del siglo XIX con el objetivo de represen- 
tar la variación lingüística en mapas y dejar de lado la descripción intuitiva y fortuita de 
las áreas dialectales que se había realizado hasta la segunda mitad de esa centuria (Cham- 
bers y Trudgill, 1994, p.37). A principios del siglo XX, con la publicación del Altas Linguis- 
tique de la France (ALF), se consolida como método de investigación dialectal basado en 
la compilación de datos procedentes de testimonios orales. Desde entonces, el atlas lingitis- 
tico se convierte en una obra fundamental en el ámbito de los estudios variacionistas que 
irá perfeccionándose y modificándose con el paso del tiempo. 

La historia de la renovación del método y de su producto principal, el atlas lingiiistico*, 
refleja cambios de diverso tipo; desde las innovaciones vinculadas con la organización de 
los datos (p. ej. el paso de la organización alfabética del ALF a la onomasiológica del AIS) 
hasta modificaciones relacionadas con el foco de interés lingüístico (p. ej. el surgimiento 
de atlas sintácticos como el SCOSYA o el DynaSAND, que atienden una parte de la gra- 
mática poco representada en los primeros atlas) y con el tipo de informante (p. ej. la am- 
pliación de las encuestas a hablantes urbanos, más jóvenes y que incluyan tanto a hombres 
como a mujeres), entre otras (Julia, 2020). Además de estas variaciones, asociadas a la 
evolución de la propia metodología y de las teorías lingüísticas, uno de los aspectos que ha 
supuesto un cambio mayor es la aplicación de los ordenadores a su creación, diseño y ex- 


plotación. La aplicación de la tecnologia a la geografía lingüística es sumamente importan- 


4 La 23.* ed. del DLE (2014) incorpora por primera vez en la historia del diccionario académico la definición de 
atlas lingüístico “Conjunto de mapas en que se presentan datos lingüísticos procedentes de encuestas" (s. v. 
atlas). Para más información sobre el concepto ‘atlas lingüístico’, véase Coseriu (1977). 

5 Tradicionalmente, los cuestionarios tenían como objetivo recoger información procedente de hablantes 
(generalmente hombres) que conocieran el medio rural, sus tradiciones y sus costumbres; a este informante 
tipo, según Chambers y Trudgill (1994, p.57), se le denomina mediante el acrónimo NORM (nonmobile, older, 
rural, males). Sin embargo, “en las últimas décadas, las antiguas formas de vida y las tareas asociadas con 
ellas se han transformado hasta casi desaparecer” (García Mouton y Molina 2009, p.180) y también lo han 
hecho los informantes que son objeto de interés en la geografía lingüística. El ALeCMan, por ejemplo, incluye 
novedades respecto a sus antecesores (el ALEA, el ALEANR o el ALE/Can) como, por ejemplo, la incorporación 
de dos informantes sistemáticamente por localidad, “un hombre y una mujer entre los que se reparten el 
contenido de un cuestionario muy extenso. Se hicieron sistemáticamente dos entrevistas por punto: una 
con un hombre y otra con una mujer” (Molina, 2018, p.4). Para una visión global de la representación del 
papel de la mujer como informante en la geografía lingüística de la península ibérica, véase Garcia Mouton 
(1999a). 
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te para los estudios dialectales, para la investigación lingüística (Nerbonne et al., 2021) e 
incluso para la historia de las humanidades digitales (Sousa, 2017). 

Los primeros testimonios de la aplicación de los ordenadores al estudio geolingúístico 
se pueden fechar en la década de los sesenta (Ziamandanis, 1996, p.56). En 1966, Roger 
Shuy, en el capítulo titulado “An Automatic Retrieval Program for the Linguistic Atlas of 
the United States and Canada”, explica cómo ideó un programa informático de tarjetas 
perforadas? —como hizo Busa en el proceso de lematización de la obra de Santo Tomás de 
Aquino en el Index Thomisticus— para trabajar en la automatización de los datos con el 
objetivo de que fueran más accesibles. Para demostrar la viabilidad de su idea, se centró en 
78 informaciones gramaticales de una región de Estados Unidos (The Linguistic Atlas of 
New England) con el fin de trazar relaciones sociolingúísticas significativas. Los resultados 
de este primer acercamiento a la automatización de los atlas lingúísticos son, en opinión 
del autor, una demostración del potencial de los datos después de haber sido procesados 


electrónicamente: 


This program, of course, is only suggestive of what can be done with the Atlas materials 
once the data are submitted to automation. These materials will be more accessible and 
reproducible than ever before. More significant, the dialectologist will be able to broaden 
his investigation of the sociological implications of American speech through improved 
handling of data. As indicated previously, one of the benefits of our program is in the area 
of distributions by occupation, sex, age, and type. (Shuy, 1966). 


A la propuesta de Shuy (1966) empiezan a suceder otros estudios. Por un lado, investiga- 
ciones en las que con la incorporación de los ordenadores al análisis de los datos se pre- 
tendía extraer el máximo rendimiento a la información lingúística desde el punto de vista 
de la variación y de la delimitación de las áreas dialectales (Gordon, 1969, p.1). Entre ellas 
se sitúan, por ejemplo, los estudios en dialectometría*. Por otro lado, los primeros trabajos 


que emplean la informática para crear atlas se sitúan en la década de los setenta. Así, en la 


6 Las tarjetas perforadas constituyen el primer medio de almacenamiento digital de información empleado 
para introducir y guardar datos en ordenadores. Este método fue muy empleado en la década de los setenta 
del siglo XX. 

7 No se cita la página porque se ha consultado la edición electrónica del trabajo y en ella no constan las páginas. 

8 García Mouton (1999b, p.335) define la dialectometría como “una disciplina clasificatoria, de carácter 
instrumental, que se apoya en la geografía lingüística y recurre a procedimientos objetivos —estadísticos 
y taxométricos—, para establecer relaciones de semejanza o diferenciación dialectales, en un intento de 
sintetizar los contenidos de un atlas lingüístico”. Aunque en los primeros trabajos dialectométricos de Jean 
Séguy (1973) se prescindiera de la automatización, y los cálculos se hicieran manualmente (García Mouton, 
1999, p.336; Aurrekoetxea 2019, p.23-24), el uso de la cuantificación informática es un pilar esencial de esta 
disciplina. 
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geolingúística estadounidense, Wood (1971 apud Ziamandanis, 1996, p.56) propone, en la 
línea de Shuy (1966), el uso de computadoras y tarjetas perforadas para editar atlas lingüís- 
ticos. Y es en la década de los setenta cuando se sitúa el inicio de la informatización de los 
atlas (Hoch y Hayes, 2010, p.25) que ofrecerá los primeros resultados en los años ochenta 
y noventa para la geografía lingúística europea: “The three projects which stand out as 
pioneers are Computer Developed Linguistic Atlas of England (Viereck y Ramisch, 1991- 
1997), Atlas Linguarum Europae (Alinei et al., 1983) and Kleiner Deutscher Sprachatlas 
(Veith et al., 1984-1999)” (Sousa, 2017, p.22). 

En las siguientes décadas, el acelerado progreso en el ámbito de la comunicación y la 
expansión del uso de la tecnología generó cambios en los estudios geolingúísticos y dialec- 
tales. Entre esos cambios, destacan las mejoras en los escáneres de imágenes, la prolifera- 
ción de programas de bases de datos espaciales (BDE) y el surgimiento de numerosas 
aplicaciones y programas para crear mapas (Google My Maps, Gabmap, Diatech, Open- 
StreetMap, ArcMap, Carto, Mapbox o QGIS). El empleo de estas herramientas ha permi- 
tido, por ejemplo, digitalizar los primeros atlas lingüísticos y recogerlos en la web (a modo 
de facsímil) con el fin de preservarlos y ponerlos a disposición de cualquiera que quiera 
consultarlos. Entre otros, pueden mencionarse los proyectos de digitalización del Sprachat- 
las des Deutschen Reichs (DSA) de Georg Wenker, que actualmente se puede consultar en 
RegionalSprache.de (Herrgen 2010 y Limper, Pheiff y Williams 2020: 3744); el Atlas Lin- 
guistique de la France (ALF), disponible en CartoDialect (Davoine et al., 2015); y el Sprach 
und Sachatlas Italiens und der Siidschweiz (AIS) de Karl Jaberg y Jakob Jud, accesible en 
NavigAIS (Tisato, 2019). Algunos de ellos, además, incluyen la posibilidad de consultar 
bases de datos en las que la información está organizada y clasificada por categorías (formas 
y campos semánticos, por ejemplo). 

En España es también en la década de los setenta cuando se empieza a pensar en la 
automatización de la geografía lingüística regional (Alvar, 1976"°; Alvar y Verdejo, 1978 
[1980]; Alvar y Nuño, 1981) y a partir de los ochenta se plantea el análisis automatizado de 
los datos (Enriquez, 1986). El proyecto del ALES (Atlas Lingiiistico de Santander) —al que 


hoy se conoce como Atlas Lingúístico y Etnográfico de Cantabria (ALECant)— es la prime- 


9 Sobre el Atlas Linguarum Europae (ALE) y la implementación de un proceso de cartografiado automático 
pueden leerse algunos de los primeros planteamientos en Putschke (1969 y 1972) a los que se van sucedien- 
do otros trabajos y propuestas. 

10 Esta referencia aparece citada en Alvar y Nuño (1981, p.359, nota 1). En la primera nota al pie se explica que 
es una publicación que deriva de una comunicación que Manuel Alvar había presentado en febrero de 1974 
en el Simposio Ordenadores y Linguistica que organizó la Universidad Complutense. Según se indica en 
Alvar y Nuño (1981, p.359), el contenido del texto presenta resultados de los primeros contactos que Manuel 
Alvar mantuvo con W. Putschke para el Atlas Linguarum Europae (ALE). 
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ra muestra de aplicación de la tecnologia a los atlas españoles. En el artículo de Alvar y 
Verdejo (1978), titulado “Automatización de atlas lingüísticos”, se presentan las bases de los 
primeros pasos de la geolingúística española en el proceso de creación de atlas automati- 
zados. Los autores toman como modelo el atlas de Andalucía (ALEA) para explicar la 


complejidad que supone el proceso manual de elaboración de cada uno de los mapas: 


Cada cuaderno de formas es la base para que un cartógrafo dibuje un mapa por cada 
binomio —concepto, región— representando en él los testimonios —provincia, localidad, 
respuesta— pertenecientes al mencionado binomio. Más tarde se lleva a cabo la impresión. 
(Alvar y Verdejo, 1978, p.23) 


En palabras de los propios autores, se trata de un “complejo proceso manual” repleto de 
dificultades que “puede simplificarse en mucho con un proceso de automatización” (Alvar 
y Verdejo, 1978, p.26-27). Era evidente que la automatización del proceso se veía, princi- 
palmente, como una vía para reducir el tiempo dedicado a dibujar los mapas y para mitigar 
los errores que pudieran introducirse en el proceso de cartografiado manual de la infor- 
mación lingúística. Así, los autores describen con detalle en el artículo cuál tendría que ser 
el método de automatización que debería seguir un atlas; y, en la conclusión, explican que 
esta es la metodología que han empezado a aplicar para la publicación de los materiales del 
ALECant, cuya recopilación de datos terminó en julio de 1978. Sin embargo, el proceso de 
automatización descrito por Alvar y Verdejo (1978), que luego se complementa con el 
artículo de Alvar y Nuño (1981), fue más costoso de lo que parecía inicialmente. Tales 
fueron las dificultades del proyecto —asociadas a su proceso de informatización (como 
puede leerse en el epígrafe titulado “Lamento inicial” que precede a la nota preliminar del 
ALECant, 1995, p.7)— que el atlas no se publicó hasta casi veinte años más tarde. Después 
del atlas de Cantabria, se publican otros atlas de forma automatizada como el ALCyL y el 
ALeCMan. El primero, según Alvar, sigue los criterios del ALECant (ALCyL, Prólogo: 11); 
el segundo, en cuya informatización empezó a trabajarse desde 1996 en la Universidad de 
Alcalá de Henares, sigue un camino distinto: para su elaboración se creó un programa 
informático específico denominado Atlante que tenía por objetivo la automatización de las 
“labores que conducen a la confección de un atlas lingúístico, así como el aprovechamien- 
to de toda la información lingúística que contiene una obra de estas características” (More- 
no et al., 1997, p.202). Este atlas, que puede consultarse en internet actualmente, seguía la 
línea de trabajo iniciada en otros proyectos europeos y americanos en los que la informa- 
tica permitía automatizar el proceso de cartografiado y gestionar las bases de datos espa- 


ciales. 
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Posteriormente, en la segunda década el siglo XXI, se inician los trabajos de edición di- 
gital del Atlas Lingüístico de la Península Ibérica (ALPI) parcialmente consultable en la red 
en la actualidad (García Mouton, 2017)”. Paralelamente a estos trabajos de digitalización de 
atlas tradicionales se ha consolidado el diseño y la producción digital de atlas, lo que ha ge- 
nerado que nos encontremos ante una nueva generación de contenidos geolingiiisticos más 
sostenibles y accesibles que ya no se publican en papel; es el caso, por ejemplo, del Atlas 
Dialectal de Madrid (ADiM), que sigue la línea iniciada por el ALeCMan. Por otra parte, 
además de estos proyectos, cabe señalar que el empleo del mapa como medio de representa- 
ción de datos lingúísticos se ha expandido más allá de la publicación de los atlas. Son diver- 
sos los trabajos en los que se (geo)localizan valiosas informaciones lingúísticas en mapas y 
que permiten realizar interesantes estudios de variación desde el eje diatópico (COSER). 

En este proceso de digitalización e informatización de los atlas, la geografía regional 
del español (nos referimos a los atlas que dirigió Manuel Alvar desde la segunda mitad del 
siglo XX) cuenta con pocas iniciativas y, por el momento, son pocos los proyectos que 
trabajan en esta línea. Uno de ellos es el Atlas Lingúístico y Etnográfico de la provincia de 
Zaragoza (ALPEZ) cuyos datos proceden del ALEANR (Atlas Lingúístico y Etnográfico de 
Aragón, Navarra y La Rioja). Se trata de un atlas digital que recoge los materiales del cuar- 
to volumen de este atlas. Se puede consultar en línea y ofrece los datos organizados e in- 


terpretados desde diferentes perspectivas, lo que permite realizar consultas de distinto tipo: 


Este Atlas digital ofrece nuevas posibilidades de búsqueda (visual e interactiva), estudios 
con gráficos-estadísticos, multi-task, un mapa interactivo (actualizable), respuestas en 
transcripción ortográfica, un mapa-leyenda en colores que remite al del ALEANR y una 
base de datos informatizada. (Tranquilli, 2019, p.1) 


El acercamiento a los datos que ofrece este reciente recurso constituye una muestra de las 
posibilidades que brinda la aplicación de la tecnología a los datos de los atlas regionales. 
Asimismo, son interesantes otras investigaciones también recientes en las que se explotan 
los datos de los atlas regionales mediante la tecnología. En el proyecto VitaLex (desarro- 
llado en la Universidad de Granada), que se centra en el análisis de la zona de la Alpujarra 
(Andalucía), el objetivo principal es analizar las respuestas léxicas de 10 puntos de encues- 
ta del ALEA y contrastarlas con datos actuales obtenidos de nuevas entrevistas. Los resul- 


tados de este estudio permitirán ver los cambios que se han producido en cincuenta años 


Sobre el español de América se inician también múltiples e interesantes proyectos de digitalización e 
informatización de atlas lingüísticos en la misma época; por ejemplo, sobre el Atlas Lingüístico de Puerto Rico 
- ALPR o el Atlas lingüístico y etnográfico de Colombia - ALEC Digital, entre otros. 
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en esta zona (Fernandez Morell en prensa). En los capitulos 14 y 15 de Fradejas (2020), 
titulados “Mapas con R. Un poco de geografía lingüística’, se muestra también algunos de 
los resultados de la aplicación de la tecnología a los datos que atesoran los mapas de la 
geografía lingúística regional. Es en este marco, en el de aprovechar las posibilidades que 
ofrecen las bases de datos espaciales y los sistemas de información geográfica (SIG), entre 
otros, en el que nace la idea de crear CORPAT (Corpus de los atlas lingiiisticos), una base 


de datos cuyos objetivos, contribuciones y características se describen a continuación. 


Objetivos y contribución 
CORPAT se concibe como una herramienta digital que pretende, por un lado, preservar el 
patrimonio histórico-lingúístico y cultural de la lengua española y, por otro lado, aproxi- 
mar la investigación de la variación lingüística a la sociedad. Para la consecución de estos 
objetivos, se parte de las posibilidades que ofrecen las nuevas tecnologías para la divulga- 
ción y la gestión de datos geolocalizados en el marco de las humanidades digitales. Median- 
te el traspaso de las formas de las cartas lingüísticas a bases de datos espaciales en trans- 
cripción ortográfica se favorece su difusión, además de permitir que los materiales 
permanezcan almacenados con el fin último de contribuir a su preservación y divulgación. 
La creación y el diseño del corpus se justifica tanto desde la perspectiva histórica como 
actual para la geografía lingüística española y europea. El lento y desafortunado desarrollo 
de la geografía lingúística en España (Heap, 2002; García Mouton, 2009) impidió la publica- 
ción completa del Atlas Lingúístico de la Península Ibérica (ALPI). Para suplir este vacío, 
fueron publicándose sucesivamente, desde la década de los sesenta del siglo XX, un conjun- 
to de atlas regionales que abarcan diferentes zonas: Andalucía (ALEA), Aragón, Navarra y 
La Rioja (ALEANR), las Islas Canarias (ALEICan), Cantabria (ALECant) y Castilla y León 
(ALCyL). Posteriormente, esta saga de atlas lingüísticos se ha completado con otros como el 
de Castilla-La Mancha (ALeCMan) y el de Madrid (ADiM) en formato digital y consultables 
en línea. A estos hay que añadir los atlas de las zonas bilingües que han ido publicándose de 
forma paralela a los del español, pero que abarcan solo el estudio de la lengua cooficial y que, 
en algunos casos, se encuentran en Internet (Galicia: ALGa, País Vasco: EEHHA y Cataluña, 
Valencia y Baleares: ALDC), y también los trabajos de González Salgado sobre el extremeño 
(Cartografía lingúística de Extremadura) que completan la cartografía por regiones. Así pues, 
a pesar de contar con datos geolingiiisticos sobre el español europeo de una gran parte del 
territorio, lo cierto es que estos materiales no se han explotado ni estudiado de forma exhaus- 
tiva y contrastada y las comunidades lingüísticas de las que proceden frecuentemente ignoran 


su existencia. La cuantía de datos que incluyen y la gran cantidad de tiempo invertido en su 
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elaboración es uno de los principales motivos que ha generado que la última fase del método 
de la geografía lingúística —en la que se procede a su estudio— se haya desarrollado parcial- 
mente (Del Barrio, 2018; Fernández Morell, en prensa). 

Así pues, la contribución principal de CORPAT es la preservación del patrimonio lin- 
güístico español; esto es, el almacenamiento y la gestión de los datos que actualmente se 
hallan distribuidos en bibliotecas y centros de investigación y que corren el riesgo de des- 
aparecer por el formato en el que se conservan. Los mapas de los atlas son multidimensio- 
nales y permiten estudiar aspectos diversos desde perspectivas distintas, como la variación 
fonético-fonológica (Llorente, 1962), la caracterización y la delimitación de los campos 
semánticos (Salvador, 1965), los procedimientos de formación de palabras (Uritani y Be- 
rrueta, 1985), los procesos de creación léxica (Fuster, 1996), la historia de la lengua y la 
etimología (Prat, 2006; García Mouton, 2010, 2016; Fernández-Ordóñez, 2011); el cambio 
lingúístico (Molina 2006; Del Barrio 2018), etc.. Así, contar con un recurso informático 
que permita consultarlos de forma rápida y sistematizada aportará información muy va- 
liosa para la investigación en lengua española desde múltiples perspectivas. Por ejemplo, 
se podrán estudiar los procesos de creación léxica más frecuentes en la lengua popular o 
contrastar la extensión y la vitalidad de los fenómenos fonético-fonológicos en la época en 
la que se recogieron los datos. Además, esto podría tomarse como punto de partida para 
entrevistar de nuevo los territorios y estudiar el cambio lingüístico en los últimos setenta 
años, de forma similar a lo que se está haciendo, por ejemplo, para otras lenguas como el 
inglés (http://tweetolectology.com/) o, a pequeña escala, con una parte del territorio anda- 
luz (proyecto Vitalex). Los datos no serán solo útiles individualmente, también servirán 
como complemento a otros grandes bancos de datos digitales como son los corpus textua- 
les, los diccionarios electrónicos y otros atlas lingitisticos digitales (en especial, el ALPI). 

Asimismo, la divulgación digital de la información contenida en las cartas lingüísticas 
también contribuirá, por un lado, a educar en empatía lingüística (Ibarretxe-Antuñano, 
2021), un aspecto con escasa presencia en el proceso de enseñanza-aprendizaje de lenguas; 
y, por otro, a conservar y a dar a conocer la memoria histórica de las comunidades lingitis- 
ticas de España. Por ejemplo, las localidades que fueron encuestadas a mediados del siglo 
XX podrán tener acceso a los datos sobre las herramientas y las técnicas de cultivo emplea- 
das por sus antepasados, las creencias o las costumbres sobre juegos, tradiciones y fiestas 
populares, entre otros aspectos de carácter etnolingúístico. Conocer su pasado a través de 
los atlas lingitisticos, les permitirá entender su presente. A continuación, se describe bre- 


vemente la estructura y el contenido del corpus en el inicio de su configuración. 
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Estructura y contenido del corpus en la fase preliminar 

El corpus, que se halla en una etapa preliminar (desarrollo en fase de pruebas en la que se 
han incorporado los datos de 50 mapas relativos a 15 conceptos, lo que supone, por el momen- 
to, mas de 5500 registros), se recopila en una base de datos MySQL 5.6. Se trata de una base 
de datos relacional en código abierto compuesta por tablas (algunas formadas con catálogos 
y otras abiertas) en las que se relaciona la información lingúística con la geográfica. En la 
interfaz de introducción de datos, en la que se trabaja en línea —lo que permite que diferen- 
tes personas introduzcan datos a la vez— se pueden modificar, eliminar y crear registros de 
cada una de las tablas. Para cada una de las respuestas recogidas (formas) en un mapa se crea 
un registro en la base de datos que se categoriza y completa según los siguientes parámetros 
(que constituyen campos en la base de datos): concepto, punto de encuesta, lengua, informa- 
ción morfológica, información semántica, información sintáctica, información fonética, 
información etnolingúística, tipo de respuesta, otras informaciones. A continuación, se des- 
criben algunas de las funcionalidades básicas del corpus que atañen a una parte de la infor- 
mación que se incorpora en la base de datos para cada uno de los registros. Se trata de la parte 
que más se ha desarrollado hasta la actualidad (mayo de 2021) y que se refiere principalmen- 
te a las búsquedas de información léxico-semántica y geográfica. 

El corpus se ha diseñado, igual que otras herramientas lingúísticas creadas mediante ta- 
blas relacionales (cfr. por ejemplo, la versión electrónica del Diccionario Crítico Etimológico 
Castellano e Hispánico - DECH, versión en CD ROM 2012), para que puedan realizarse bús- 
quedas simples (por un solo criterio) o búsquedas múltiples (que combinan distintas opcio- 
nes y permiten filtrar la información para obtener resultados más concretos). Al acceder a la 


interfaz, se llega a la consulta principal, que se divide en tres campos (figura 1): 


CONSULTAS 
Formas Forma 
Concepto -- Todos -- v 
Sampo -- Todos -- vi + 


Semantico 


Figura 1. Interfaz de consulta principal de CORPAT. 


En la búsqueda por FORMA se recoge en transcripción ortográfica la palabra o secuencia 
de palabras que se corresponde con la respuesta de un punto de encuesta del atlas. Por 
ejemplo, si se introduce la palabra jamón en la caja de consulta, el desplegable ofrece la lista 


ordenada alfabéticamente de los diez registros que contienen esta cadena de caracteres, 
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bien sean palabras simples, derivadas o sintagmas que la contengan (el jamón, hueso del 
jamón, jamón, jamoncete, jamoncillo). El usuario puede elegir la forma que le interese del 
desplegable o verlas todas. Si se eligen todos los registros, se obtiene información sobre los 
conceptos, los atlas, los mapas y los puntos de encuesta en los que aparecen estas formas. 


La búsqueda arroja 10 registros relativos a los conceptos “hueso de la cadera” y ‘pulpejo 


(figura 2): 
NÚMERO 
FORMA + CONCEPTO a o ATLAS MAPA ee PROVINCIA LOCALIDAD DE 
RESPUESTA 
a h del El E 
el jamón eee ae see ALEA 1260 Ma 101 Malaga Teba 13 
cadera humano 
il 
hueso: del hueso de la El cuerpo ALEA 1260 Co 605 Córdoba Castil de La 
jamón cadera humano Campos 
h del h del El 
e pant ALEA 1260 Gr 301 Granada Colomera La 
jamón cadera humano 
h del h de | El 
ek TEP ALEA 1260 Gr 302 Granada Iznalloz 1a 
jamón cadera humano 
metal Eno Hlicuerpo ALEA 1260 Gr 500 Granada Salar de Loja | 1.2 
jamón cadera humano 
hueso del hueso de la El cuerpo ALEA 1260 Ma 201 Málaga Villanueva de 1a 
jamón cadera humano Algaidas 
El Vill de d 
jamoncete  pulpejo ES ALECant 848 s 401 Cantabria De j 1.a 
humano Trucios 
jamoncillo pulpejo Sinai ALEANR 992 Sor 400 Soria Ólvega iL 
humano 
El A 
jamón pulpejo pa ALEA 1275 J 306 Jaen Porcuna 1,2 
jamón pulpejo Eicuerpo ALEANR 992 Lo 502 La Rioja Lumbreras 22 
humano 


Mostrando registros del 1 al 10 de un total de 10 registros 


Figura 2. Resultados de la busqueda por forma en CORPAT. 


Los resultados obtenidos en esta busqueda constituyen el reflejo de la necesidad de poder 
ver los datos de los atlas organizados de este modo para examinar qué relaciones lingitis- 
tico-conceptuales se establecen entre los diferentes conceptos y ámbitos semánticos que 
forman parte de los atlas (como las partes del cuerpo y los alimentos). 

En la búsqueda por CONCEPTO se incluye el nombre identificativo del mapa que consti- 
tuye la realidad que es objeto de investigación. Es el que suele aparecer en los índices de los 
atlas y habitualmente se ubica en la parte superior izquierda de las cartas geolingúísticas 
(véase la figura 4). Esta posibilidad de búsqueda está vinculada al orden onomasiológico en 
el que los atlas se conciben. Se parte, por tanto, del concepto (realidad) para llegar al lexema. 


El nombre del concepto se ha vinculado previamente a un subcampo semántico que, a su vez, 
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se relaciona con un campo semántico. Esta clasificación conceptual deriva de la organización 
de los índices de los atlas lingüísticos. Asi, por ejemplo, en el campo semántico Agricultura 
(que en el ALEA ocupa del mapa 7 al mapa 287), se incluyen quince subcampos semánticos 
(aparejo para las bestias de carga, arado, carbonero, carro, el campo y sus cultivos, el corcho 
y su elaboración, molinos de harina y panificación, olivo y oleicultura, vid y vinificación, etc.) 
en cada uno de los cuales se clasifican los conceptos cartografiados. La jerarquía puede es- 
quematizarse del siguiente modo con los mapas del ALEA referidos al subcampo semántico 


de la vid y la vinificación que se recoge en la figura 3: 


CAMPO SEMÁNTICO SUBCAMPO SEMÁNTICO CONCEPTO N.° DE MAPA 


mapa 186 
a 


racimo mapa 197 
mapa 197 


Vid y 


AGRICULTURA eps e 
vinificacion 


*gajo 


(del racimo) 


Figura 3. Ejemplo de jerarquía onomasiológica del corpus. 


El corpus incorpora tanto los conceptos cartografiados como aquellos que no tienen mapa 
propio porque se consideró que presentaban poca variación para representarla en un 
mapa. En la mayor parte de los atlas, los conceptos no cartografiados suelen aparecer en 
otros mapas y señalados en el índice con un asterisco. El ALCyL es el único que incluye las 
respuestas a conceptos no cartografiados en una lista —titulada “Preguntas no cartogra- 
fiadas” (pp. 921-937) — en lugar de incorporarlas en otros mapas. Véase, a modo de ejem- 
plo, la información que sobre el concepto “articulación incluye el mapa 494 del ALEICan 
en el que las respuestas que aparecen cartografiadas son las del concepto hueso de la 


cadera' (figura 4): 
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HUESO DE L 
Hiftbein 
os iliaque 
hip-bone 
osso dell-anca 
osso da anca 
osul saldului ARTICULACIÓN 
AIS L, 435%; ALJA Y 1260 
ALF Suppiffhanche) Coyuntura es - con mucho- el térmi- 
no más extendido; se recogen las varian- AS 
les tonéticas kwayentire (Lz 1), 
Loyazí= (3.812), kuy= (Hi4). En 
cuanto al léxico se documentaron 
fué-99 (Fy 30; ES 2 20; 116; 603 
4; 443), yába (GE 40), artrkulesjóna 
A (P) (G€. 2, termino quealferna con 
coyuntura y juego), bisá:gre (Tt 2) 
gónsa (Go 2). 


CADERA Señalaba. 


GU; *kwajrj', kwadri! : 
GC U kaé:re O cuadril 
A cadera. 


Figura 4. Ejemplo de mapa que incluye conceptos no cartografiados (ALE/Can, mapa 494). 


Esto es importante por cuanto amplía considerablemente el número de registros incorpo- 
rados en el corpus. El ALEA, por ejemplo, en su primer volumen, incluye 86 conceptos no 
cartografiados en el interior de los mapas, lo que supone un incremento de un 30 % más 
de registros para este volumen. 

Aunque los atlas lingúísticos regionales del español siguen una metodología homogé- 
nea —motivo por el cual sus datos pueden ser contrastados y analizados como una uni- 
dad—, existen pequeñas divergencias que han implicado un trabajo de unificación previo 
para sistematizar la búsqueda en este campo de la base de datos. Por ejemplo, algunos 
conceptos no se etiquetan con el mismo nombre, aunque se refieren a la misma realidad. 
Así sucede en el caso del concepto “incisivo que aparece identificado como “incisivos su- 
periores centrales’ en el ALEA (mapa *1224), “incisivos” en el ALECant (mapa 833), (dien- 
te) incisivo en el ALEANR (mapa 955) y dientes delanteros en el ALeCMan (mapa 298). 

En la búsqueda por CAMPO SEMÁNTICO el usuario puede seleccionar de una lista cerra- 
da el ámbito de significación sobre el que desea realizar la consulta. Como se ha detallado 
anteriormente en la descripción de la búsqueda por CONCEPTO, los campos semánticos que 
aparecen en el corpus vienen determinados por las áreas de interés de los cuestionarios que 
aparecen organizados onomasiológicamente en los atlas: agricultura, animales domésticos, 
animales silvestres, apicultura, creencias populares y supersticiones, de la cuna a la sepul- 


tura, el cuerpo humano, el mar, el tiempo, etc. De igual modo que en el caso de la búsque- 
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da por concepto, la información de este apartado requiere de una unificación previa. Asi, 
por ejemplo, mientras que el ALEA, el ALEANR y el ALEICan coinciden en dividir el 
campo semántico relativo a los vegetales en diversos apartados (plantas silvestres, flores, 
arbustos, hortalizas, árboles frutales, el bosque, etc.), el ALECant recoge la información 
bajo el epígrafe “Vegetales” sin establecer ninguna división. Por ello, los conceptos del 
ALECant que coinciden con los de los otros atlas, se han clasificado según estos. El con- 
cepto ‘musgo’ puede servir de ejemplo: aparece en el ALEA, el ALEANR y el ALEICan en 
el apartado “Plantas silvestres, flores y arbustos”, por ello, en CORPAT, los registros del 
ALECant para este mapa se categorizan bajo este subcampo semántico que, por el momen- 
to, no se visualiza en la interfaz de consulta. 

A las tres búsquedas principales que se han descrito (por FORMA, CONCEPTO y CAMPO 
SEMÁNTICO) se añaden otras opciones vinculadas a la fuente de obtención de datos. Se 
puede buscar por ATLAS, por NÚMERO DE MAPA, por PUNTO DE ENCUESTA, por NOMBRE DE 
LA LOCALIDAD y por PROVINCIA. Es posible, además, combinar estas búsquedas con las tres 
principales; así, el usuario puede obtener todas las formas que el corpus contiene, por 
ejemplo, para la provincia de Huelva en el campo semántico del cuerpo humano o todos 


los registros de una localidad (figura 5): 


CONSULTAS 

Formas Forma 

Concepto -- Todos -- v 
Campo Semántico -- Todos -- v = 
Atlas -- Todos -- {v 
Mapa -- Todos -- v 
Provincia -- Todos -- wi 
Localidad -- Todos -- v 
Punto de Encuesta -- Todos -- v 


Figura 5. Interfaz de consulta secundaria de CORPAT. 


En el campo PUNTO DE ENCUESTA se incluye el código que recibe el enclave geográfico en 


cada uno de los mapas según la metodología seguida por Alvar desde el ALEA: 


cada lugar está representado por una sigla (que representa el nombre de la provincia, según 
la abreviatura oficial del Ministerio de Obras Públicas) y un número de tres cifras [...] 
cada provincia está dividida idealmente en seis casillas de las cuales las que registras cen- 
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tenas impares corresponden al oeste y las pares al este. Dentro de ellas, la localización 


(norte, centro, sur) se hace por orden creciente: 1 (noroeste), 3 (centro-oeste), 5 (sudoeste); 
2 (nordeste), 4 (centro-este) y 6 (sudoeste)). (ALEA, Nota preliminar: 3) 


El corpus, por tanto, mantiene la codificación original de los atlas regionales. El punto de 


encuesta se recoge previamente en una tabla en la que se asocian con información sobre el 


atlas al que pertenece, el nombre de la localidad, la provincia y las coordenadas (la longitud 


y la latitud) que permiten la geolocalización. Cada registro se localiza en el mapa al pinchar 


en el nombre de la localidad (figura 6): 


FORMA a CONCEPTO $ CAMPO SEMÁNTICO + ATLAS + 


el jamón hueso de la cadera El cuerpo humano ALEA 


| 
El cuer Localidad 


hueso de la cadera | 


hueso del jamón 


El cuer 


hueso del jamón hueso de la cadera 

hueso del jamón y hueso de la cadera i | El cuer; 

hueso del jamón hueso de la cadera El cuer) 
A de la cadera | El cual 

jamoncete pulpejo El cuer, 
jamoncillo al pulpejo A El cuer) 
jamón pulpejo El cuer, 
inii ins | 


Mostrando registros del 1 al 10 de un total de 10 registi 


Figura 6. Localidad y punto de encuesta en CORPAT. 


MAPA 


| 1260 


$ PUNTO DE ENCUESTA $ | PROVINCIA © LOCALIDAD 


Ma 101 | Malaga | Teba 


|] bstil de Campo 
= illanueva de Al 


plomera 


tnalloz 


alar de Loja 
llaverde de Tri 
Ivega 


preuna 


AS 


Además de permitir la consulta de formas por puntos de encuesta (figura 7), existe también 


la posibilidad de ver todos los puntos de encuesta, bien por atlas, bien en conjunto (figura 8): 


PUNTOS DE ENCUESTA 


Consulta global 
> 


Figura 7. Consulta de formas por puntos de encuesta. 
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ADIM (16 puntos) z 
ALBI (24 puntos) 

ALCyL (212 puntos) 

ALEA (230 puntos) 

ALEANR (179 puntos) 

ALECant (55 puntos) 

ALeCMan (162 puntos) 

ALEICan (51 puntos) 

CaLiEx (58 puntos) 
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Figura 8. Puntos de encuesta de los atlas en CORPAT. 


Igual que en algunos de los campos anteriores, se han tenido que ajustar y unificar algunas 
informaciones relativas a la codificación que generaban algunos problemas en el proceso 
de geolocalización. Por un lado, se han actualizado los nombres de algunas poblaciones 
bien por cambios ortográficos bien porque en la búsqueda actual del nombre aparecía 
información que no se halla en el atlas (tabla 1); se trata de un problema al que otros inves- 


tigadores han hecho alusión con anterioridad (Pato, 2004, p.123-125). 


Tabla 1. Algunos ejemplos los cambios de nombres de localidades. 


Atlas Punto de encuesta Nombre en el atlas Nombre en CORPAT 

ALEANR Na 103 Arcos Los Arcos 

Na 303 Salinas Salinas de Ibargoiti 

Lo 303 Tovía Tobía 

Vi 600 La Guardia Laguardia 
ALEA J 102 Isabela La Isabela 

J 600 Pozo-Alcón Pozo Alcón 
ALEICan LPT Garafía Villa de Garafía 
ALECant S 202 Mortera de Piélagos Mortera 
ALCyL Bu 602 Pinilla Pinilla de los Moros 
ALeCMan GU 310 Abádanes Abánades 


Además de esta falta de coincidencia parcial con el nombre actual, en el ALCyL se han 
encontrado dos puntos de encuesta que tienen el mismo nombre: So 502 y So 602 se refie- 
ren a Torrevicente, aunque actualmente no se han podido identificar dos localidades con 


el mismo nombre. Siguiendo la ubicación del mapa del atlas, se ha identificado Torrevi- 
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cente en So 502. Ademas de estos casos, también se han tenido que modificar algunos de 
los codigos de los puntos de encuesta porque coincidian en mas de un atlas y ello genera- 
ba un conflicto al etiquetar la localidad. Esto ha sucedido en los puntos de encuesta del 
ALEANR situados en Soria (So 400, So 402 y So 600) y Burgos (Bu 400), ya que el código 
empleado coincidía con el del ALCyL. Como se trata solo de cuatro casos, se han modifi- 
cado ligeramente los nombres añadiendo una tercera letra a la abreviatura del nombre de 
la provincia. Así, los cuatro puntos del ALEANR mencionados se hallan en CORPAT eti- 
quetados como Bur 400, Sor 400, Sor 402 y Sor 600, por lo que no existe posibilidad de 
confusión con los puntos del ALCyL. En el caso de los nombres de puntos de Cuenca y 
Guadalajara del ALeCMan que coinciden con algunos del ALEANR, no existe posibilidad 
de confusión porque en el atlas de Castilla-La Mancha las letras del código aparecen en 
mayúscula (CU 200, CU 400; CU 200 y CU 400) y en el ALEANR en minúscula (Cu 200, 


Cu 400; Gu 200, Gu 400). 


Conclusión 

El corpus, sobre el que se han descrito brevemente algunas de las funcionalidades (princi- 
palmente relativas al vocabulario dialectal) y características que presenta en esta primera 
etapa de su desarrollo (muy preliminar), se ha diseñado como herramienta complementa- 
ria a los corpus textuales y obras lexicográficas del español. No pretende, en ningún caso, 
sustituir ni al atlas ni a los mapas que lo conforman, pues constituyen documentos genui- 
nos de un valor incalculable, sino que persigue la protección del patrimonio histórico, 
cultural y artístico. Consideramos, de acuerdo con Sousa (2017), que tanto los atlas como 
su contenido forman parte de los bienes materiales e inmateriales de la historia de la lengua 
española y que es necesario invertir tiempo en preservarlos antes de que se pierdan y el 


fruto de tanto esfuerzo económico y científico acabe olvidándose. 
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multimodales en corpus: el 
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Abstract: Due to major technological advances, multimodal data treatment and 
compilation is a thriving possibility in Linguistics and provides new insights about the 
interplay of the sound signal and its corresponding gestuality in multimodal sponta- 
neously produced data of how speech and gestures couple. This chapter discusses 
methodological issues associated with multimodal data compilation and treatment, 
especially regarding the crucial role of action. The main objective was to connect 
information structure organization, as it is treated through the Language into Act 
Theory - L-AcT (Cresti, 2000; Cresti & Moneglia, 2010; Moneglia & Raso, 2014), with the 
concept of spatio-motoric packaging as found in Kita & Özyürek (2003). The novelty 
of this methodological proposal stems from the crucial role prosody plays in the 
definitional categories found in L-AcT and its impact on the interpretation of gestures. 
The BGEST corpus, a pilot study within the C-ORAL-BRASIL research initiative, is pre- 


sented as the basis of the discussion carried. 
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Resumen: Debido a los principales avances tecnológicos, la recopilación y el tratam- 
iento de datos multimodales es una posibilidad animadora para brindar nuevas per- 
spectivas sobre la interacción de la señal sonora con la gestualidad en datos multi- 
modales producidos espontáneamente de cómo se acoplan el habla y los gestos. 
Este capítulo discute cuestiones metodológicas asociados con la recopilación y el 
tratamiento de datos multimodales, especialmente con respecto al papel crucial de 
la acción. El objetivo principal fue conectar la organización de la estructura de la in- 
formación, tal como abordada a través de la Teoría de la lengua en Acto (Cresti, 2000; 
Cresti & Moneglia, 2010; Moneglia & Raso, 2014), con el concepto de empaquetado 
espacio-motor encontrado en Kita y Özyürek (2003). La novedad de esta propuesta 
sucede del papel crucial que la prosodia desempeña en las categorías informacion- 
ales de la L-AcT y su impacto en la interpretación de los gestos. El corpus BGEST, un 
estudio piloto dentro del grupo de investigación C-ORAL-BRASIL, es presentado como 


base para la discusión realizada. 


Introduction 

Technological advances have enabled researchers to study speech beyond its transcription. 
This has shown how much information is lost in the direct conversion of spoken texts to 
their written counterpart. Transcriptions can often be misleading and fail to provide a 
myriad of nuances that are crucial to the understanding of how speech is produced (Mello, 
2014). Recently, the same conclusion could be drawn regarding multimodal data (Allwood, 
2008). Considering that most daily human interactions happen in face-to-face contexts, 
what is lost if the study of these events is limited to their audio recordings? 

The study of multimodal data may pose even bigger challenges than those found in 
speech data study when it comes to corpora compilation and treatment, because the process 
might demand even more planning and manual treatment. The use of high-quality equip- 
ment, such as wireless microphones, discreet cameras and powerful software is only part 
of the issue. Most of the work involved refers to pre-planning, in which the type of inter- 
action, size, format, technical specifications, and usability of the corpus are established. 
These decisions affect directly the corpus and the kind of analysis that may be developed. 
Moreover, the theoretical path that led to the methodological decisions must be clear to 
enable a coherent analysis later on. The BGEST corpus will serve as a case-study, present- 


ing methodological decisions designed to enable gesture-prosody interface studies, joining 
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the efforts made by both the study of speech and gesture in face-to-face interactions. These 


issues will be tackled in the next sections. 


Background 

The current state of the art of multimodal corpora resembles more closely an analytic 
heuristic for gesture studies than a set of guidelines towards the systematic collection of 
machine-readable linguistic data (Duncan, 2013). Most publications rely on ad hoc data 
collections that provide material for analysis but are not comparable to other data sets. Part 
of the problem is due to unclear legislation that fails to provide clear rules about how to 
guarantee participant anonymity while still making the data widely available. The other 
major problem is the amount of time required to collect, treat, and annotate the data. 

While spoken corpora are growing in terms of length and automation, multimodal 
corpora fail to meet the criteria of variability, size and comparability that are common to 
spoken corpora. On multimodal corpora variability, Mello (2014) points out that the issues 
inherent to video recordings outnumber the available technical solutions. Alongside the 
additional costs, it is hard to predict how people will behave when video-recorded. A room 
filled with video cameras, as in a movie shooting, besides demanding enormous resources 
would impairs the intended spontaneity, even when the person is not camera-shy. The data 
treatment required also poses a constraint to multimodal data, regarding the time em- 
ployed to select, edit, transcribe, and annotate the overwhelming amount of information 
that comes up in a recorded situation. When Loehr (2004, 2014) gave his first steps in this 
direction, he pointed out that annotation could take up to one hour per second of data: 
thus, only ten minutes of data could take 600h to be ready to be analysed. 

Therefore, the corpus pre-planning phase should be guided initially by what can be 
feasibly accomplished (Mello, 2014). This means that, given the current possibilities of data 
compilation, it is better to have simple and well-structured data than to have many unre- 
liable excerpts that cannot be directly compared. In comparison to spoken corpora, the 
size must be shrunken, to enable careful annotation and internal variability, given the 
previously mentioned compilation issues. A case study of the BGEST corpus, a multimod- 
al corpus pilot project, stemming heavily from the C-ORAL spoken corpora family is 
presented in the following sections. Many practical considerations had to be made, as the 
following paragraphs show. 

The protocol conducted in the BGEST corpus was intended mostly to allow studies on 
the interplay of gesture and prosody according to the Language into Act Theory (Cresti, 2000; 


Moneglia & Raso, 2014), resulting in a multimodal corpus comparable to the monologue 
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section of the C-ORAL spoken corpora family. The Language into Act Theory is a cor- 
pus-based theory about informational patterning in speech. The theory establishes that pros- 
ody is a necessary interface between the linguistic content and illocutions (speech acts) con- 
veyed through speech (Cresti & Moneglia, 2010; Moneglia, 2011; Cavalcante, 2015). This 
means that speech is conducted by the actions performed in interaction, such as a question, 
assertion, among many others, technically referred to as illocutions. The prosody carries (most 
of) the illocutionary force. In terms of analysis, the basic is unit are utterances, perceived as 
pragmatically and prosodically autonomous units, which convey the illocution. An utterance 
can be internally divided in tonal units. The unit which carrying the illocution is called Com- 
mentary and appears without internal divisions in the utterance. In case the utterance has 
internal divisions, other units frame the illocution complementing it with textual informa- 
tional or with discourse markers, regulating interaction (Moneglia & Raso, 2014). 

The intention behind the use of L-AcT as a theoretical background to compile a mul- 
timodal corpus was grounded on the actional basis that underlies both prosody and gesture 
(Wagner, et al., 2014). In prosody, action is portrayed through an illocution, a highly con- 
ventionalized form that conveys a speech act (Cresti, 2000; Cresti & Moneglia, 2010). In 
gesture, action comes as a representation that is not entirely conventionalized, but it is 
packed as spatio-motoric information complementary to speech (Kita & Ozyiirek, 2003). 
As such, the research question that guided our research proposes a deep look into how 
action may frame multimodal information. 

Cantalini (2018) dealt with this question, analysing excerpts of recited and spontaneous 
speech by three Italian actors. The author analysed up to ten minutes of data in both typol- 
ogies and concluded that the internal divisions in gesture are temporally compatible to 
prosodic breaks, both terminal and non-terminal. Her research also showed that gestures 
align to speech at the lexical, informational and illocutionary levels. These findings may be 
seen as evidence that the informational patterning has a role in the organization of speech 
and gesture. 

The BGEST corpus architecture was drawn from the C-ORAL corpora family, a mul- 
ti-language corpora compilation project covering all major Romance languages (Cresti & 
Moneglia, 2005), including Brazilian Portuguese (Raso & Mello, 2012), Angolan Portuguese 
(Rocha, et al., 2018) in addition to English (Cavalcante & Ramos, 2016). The major differ- 
ence between the C-ORAL corpora to other spoken corpora initiatives is the variability of 
situations portrayed, pre-planned to accurately encompass diaphasic variation. Diastratic 
variation resulted from the variation of recording situations and the diatopy was restricted 


to a metropolitan regional variety. 
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The C-ORAL family documents both formal and informal spontaneous registers, be- 
sides telephone conversations, television discourse, conferences, political debates, and 
teaching. Informal texts are normally not shorter than 1,500 words (around ten-minute 
recordings) and never longer than 3,000 words. This constraint warrants textual autonomy, 
but it does not overtly represent idiosyncratic characteristics (Mello, 2014). The two regis- 
ters branch into public and private/family contexts. The division between public and pri- 
vate/family contexts takes into account the role the participants exercise in the interaction. 
Within the C-ORAL family, cultural differences moulded these definitions. Here, we only 
consider the C-ORAL-BRASIL. 

Regarding the architecture above, some considerations must be made to make a mul- 
timodal corpus feasible. The first concern is the time required for data treatment, which 
will inevitably reduce the text's size. In gesture study tradition, texts are considerably small: 
Loehr (2004) analysed 164 seconds (summing up 147 gestures) in four dyatic interactions. 
Other authors worked with smaller time stretches: Condon and Ogston (1966) analysed 
five seconds of psychiatric consultations, Kendon (1972) worked on 90 seconds of data 
collected at a pub, and McClave (1994) analysed 125 gestures extracted from hours of filmed 
conversations. McNeill (1992) worked with 790 gestures in six different languages in elic- 
ited monologues. Cantalini (2018) analysed around 10 minutes of spontaneous speech and 
seven minutes of recited speech, which were used as a model for our research. 

In an attempt to select texts that were not overtly long but still held their autonomy, it 
was decided that they should be no shorter than two minutes and no longer than three 
minutes. This provided around 400 words and 45 gestures per text. Regarding the type of 
register and its branches it was settled that a private/family informal context was more 
adequate to create a friendly environment that could compensate for the recording equip- 
ment embarrassment effect. 

The C-ORAL family corpora have as a primary goal to be as representative as possible of 
the diaphasic variation in spontaneous speech. This motivation is based on the fact that the 
linguistic structure of a communicative event drastically changes from one situation to an- 
other, regulated by the ongoing activities. Monologues, interactions in which one speaker 
holds the floor to explain or tell a story, follow a semantic trajectory in which the main ac- 
tionality is the speaking process itself. Dialogues and conversations have at least two partic- 
ipants that “perform co-dependent speech actions” (Mello, 2014, p.37). While monologues 
are more informative, with a richer elaboration of its content, dialogues and conversations 
are less informative but richer with respect to their illocutions. The C-ORAL family is divid- 


ed in one third monologic and two thirds dialogical (dialogues and conversation) texts. The 
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justification for such division is grounded on the necessity to replicate what is found in au- 
thentic interactions and represent different degrees of interactivity, especially regarding dif- 
ferent levels of actionality. In the BGEST corpus, adjustments had to be made to encompass 
the specificity of gesture capture, as gestures become more elaborate as the linguistic content 
complexifies. Thus, the BGEST corpus compilation was restricted to monologues, as their 
illocutionary monotony would be compensated by a richer gestural production. 

Restricting the text typology to private/family monologues, the diaphasic variation was 
compromised. A greater diaphasic variation would require a whole set of cameras around 
one environment that allowed participants to move around freely, as the lapel-microphones 
do. For the moment, the amount and kind of data that monologues provided suffice for the 
analysis of the relation between gesture and prosody in this textual type. 

The BGEST corpus followed the C-ORAL-BRASIL I guidelines (Raso & Mello, 2012) 
regarding the diatopic variety, capturing speakers aged 18 to 40, living in the metropolitan 
area of Belo Horizonte for at least two years, 50% of them originally are from that city. Ten 
participants are recorded in the almost 4,000 words comprising the BGEST corpus. Six of 
them are female and four are male, each one responsible for roughly 10% of the words 
uttered. All the participants were either enrolled in an undergraduate course or held college 
degrees. To avoid code-blending phenomena (Casey & Emmorey, 2009; Emmorey et al., 
2008), in which fluent sign language speakers gesture with signs while using an oral lan- 
guage, the participants who were fluent in Brazilian Sign Language were excluded (one 
participant). The dominant hand was controlled to guarantee that there was no side bias 
(eight were right-handed and two were left-handed). An analysis conducted after the data 
collection concluded that the gesture position and the dominant hand do not hold any 


correlation (x? = 0.1(1), p < 0.75). 


Data collection and treatment 


Recordings 

After the architecture was settled, recordings took place. The main concerns in this task 
were acoustic quality, video recording and gesture production. The participants provided 
their consent to the data collection beforehand, as well as their legal consent to image usage 
rights. There are still no clear guidelines in Brazilian legislation regarding how image can 
be distributed, which leads to the videos being only available to the research group mem- 
bers involved in the project. Participants’ identities are not revealed, and they are only 


referred to by a codified sequence of letters. 
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For the BGEST corpus, the participants were recruited using the main researcher's 
personal network. The researcher would refer to the project without mentioning the spe- 
cific interest in gestures, asking for an appointment at the participant’s earliest convenience 
and, if given permission, beginning the recording. A comfortable situation was crucial to 
assure adequate data collection, especially considering that the recordings took place dur- 
ing the 2020’s coronavirus pandemic. 

The recording should enable high quality audio and video, in a way that allows phonet- 
ic studies and gesture analysis. The first constraint is easy to be overcome using high qual- 
ity equipment, such as wireless lapel microphone system (Sennheiser EK100G3) preferably 
accompanied by a dedicated recording device (TASCAM DR-100MKII). This equipment 
has a friendly and non-invasive size that favours the recording session as it is easily forgot- 
ten by participants. The video recordings posed problems of a different nature: the image 
resolution for analysis does not need to be extremely high (e.g., 480p is sufficient when the 
facial expression is not relevant, according to ELAN’s guidelines), but it should encompass 
different angles of the participant. This enables the participant to freely move while talking, 
not being constrained to a specific frame. Two or more cameras also give a three-dimen- 
sional sense to the footage, allowing fine-grained perception of gestures. The cameras 
should capture the participant’s upper limbs to the extent of wide-open arms and should 
be placed as out of sight as possible. A simple, yet successful way to accomplish this is to 
place the researcher in between two cameras. By doing so, the participant tends to look 
more directly at the researcher than at the cameras. This also prevents the embarrassment 
that a recording session may cause to participants, because they usually forget about the 
equipment in a few minutes and carry the interaction naturally. 

The distance in which the participants should be placed depends on the kind of lenses 
used. In the BGEST corpus, two kinds of lenses were used: 35mm (Panasonic HC-X900M) 
and 10mm (GoPro Hero 7). 35mm lenses are more common, accessible and distort less the 
image. Because the camera must be placed on a tripod at least 1.2 m from the participant, 
it draws some attention and has an inherent risk of something extraneous occurring in 
between the lenses and the participant (someone walking by, for instance). 1omm lenses 
have a smaller focal distance with a resulting broader angle of view, which causes a bigger 
distortion. Even so, the smaller design and higher stability (it does not require a tripod), 
makes it easier to be placed out of sight. Because it can be placed closer to the speaker, it 


diminishes the risk of something coming in between the lenses and the participant. 
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Following Mello’s (2014) guidelines, some experience is required to find the equipment 
finest tune and recording of more time than what is intended to be transcribed should be 
done. This is important due to three main reasons (Mello, 2014, p.49): 

a to allow for the possibility of choosing the best acoustic quality excerpt; 
b to allow for the possibility of choosing the most interesting and actional excerpts; 
c to allow for the possibility of choosing more than one excerpt from the same recording 


session. 


The recording sessions were up to one hour long. This was more than enough for the par- 
ticipants to get acquainted with the situation, speak freely and (hopefully) move their 
hands. Excerpts up to three minutes long were collected from each recording, in which the 
participant was holding the floor for at least 30 seconds (Loehr, 2004). Each excerpt was 
then analysed concerning the informational units used and how comfortable the partici- 
pant seemed. Out of fourteen recording sessions, one was excluded because the participant 
was fluent in Brazilian Sign Language (to avoid code-blending), three were excluded 
because the participants did not feel comfortable during the session or requested to be 
excluded. One was partially censored upon the participant’s request. In the ten remaining 
recordings, three to five excerpts were analysed to meet the 30 second criteria. Out of each 
recording session, only one excerpt up to three minutes long was chosen. 

The acoustic quality of the audios was measured by the script provided by Ferrari, Mello 
and Vieira (2020), also used on C-ORAL-BRASIL II (Raso et al., in preparation). The crite- 
ria used for the analysis are fo, formants (F1 and F2) and signal-noise ratio. The method 
employed combines a series of Praat (Boersma 8 Weenink, 2020) measurements to a human 
evaluator's appraisal, which is crucial to double check all parameters. For audios from one to 
five minutes, five excerpts oftwo seconds long were analysed. Each parameter received a score 
and weighted average values with arbitrary weights were calculated. The tags are from A (best 
quality) to C (worst quality). The audios in the BGEST corpus received different tags: five 
were classified as (A), four were (AB) and one was classified as (B). 

In the best-case scenario, all the recordings should be of (A) quality, to enable good pro- 
sodic analysis, as recorded by at least two cameras. However, because the recordings were 


carried during the coronavirus pandemic, attempting new recording sessions was not feasible. 


. Transcription, speech segmentation and informational tagging 


The main points that must be taken into consideration in a transcription are the previous 


training of the team involved and decisions about which transcription criteria should be 
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adopted. The C-ORAL-BRASIL transcription guidelines were followed and are summa- 
rized in the following paragraphs (cf. Mello, 2014; Mello et al., 2012). The overall architec- 
ture follows the CHAT guidelines (MacWhinney, 2000) used in the CHILDES project. 
This means that each speaker turn is represented on one line, started by a “*” followed a 
three-letter capitalized acronym for the participant. Each turn is delimited either by a 
non-terminal break “/” or by a terminal break “//”. In the BGEST corpus, as in the C-ORAL 
family, terminal breaks signal pragmatic- and prosodically autonomous utterances, accord- 
ing to L-AcT (Cresti, 2000; Moneglia & Raso, 2014). Interruptions are delimited by a “+” 
and cancelled words are marked by the following convention: a “&” precedes the interrupt- 
ed word and “[/n]” indicates how many words have been retracted. Other linguistic phe- 
nomena are represented by a symbolic convention: “hhh” indicates paralinguistic sounds 
such as laughter and coughs; “&he” indicates hesitation or taking time (regardless of the 
vowel enunciated); “<>” angular parentheses signal an overlap; “yyyy” indicates an incom- 


prehensible sequence; and “xxx” indicates an incomprehensible word. 


Example 1. Main criteria used in targeting - bgest_010[2-4]: 4)" 


*CLA: [2] há eu não vou conseguir lembrar // <mas> + 
hhh | am not going to remember // <but> + 
*CAM: [3] <mas> cé era do / lado da promotoria ou do + 
<but> you was on / [the] prosecution or on + 
*CLA: [4] não / do juiz mesmo // & [/1] então / a promotoria seria no / criminal // 
no / on the judger's side] actually // &j [/1] so / the prosecution would be in criminal [law] // 


In the example above (1), the speaker CLA laughs at the beginning of an utterance and 
produces an interrupted utterance, marked by “+” In [4], CLA stutters “j” at the beginning 
of the second utterance, abandoning the word. This is marked by “&j” with [/1] indicating 
that the previous word has been cancelled. 

Orthographic conventions aim to guarantee readability, reliability and ease in the following 
computational treatment. Non-orthographic criteria tried to capture on-going phenomena of 
grammaticalization and lexicalization in Brazilian Portuguese, such as the apheresis of the verb 
ser (to be), as in tá (>está), tar (> estar), tamos (> estamos) forms. Phenomena, such as pro- 
duction and agreement errors are noted in the metadata that accompanies the transcription. 
Acronyms and abbreviations can be transcribed in two ways: only in capitaled words ifuttered 
asa single word (e.g., SUS), or, when they are uttered as a sequence of letters, as syllables formed 


by a single letter (e.g., uefeemegé - UFMG/Federal University of Minas Gerais). 


The icons 4) @ indicate an associated audio or video that can be accessed in <>. 
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Example 2. Transcription incorporating orthographic and non-orthographic conventions: apheresis and cliticization - 
bgest_007[19]: 4) 


*CAR: [19] ai eu [/1] ele respondeu que e’ tava bem / ai ele [/1] af eu / cé sumiu né // 
then 1 [/1] he replied that he was fine / then he [/1] then | / you've disappeared right // 


In the example (2) above, other conventions are presented. In [19], the apheretic forms tava 
(>estava), as well as the cliticization of the subject pronouns cé (>vocé) and e’ (>ele) are 
portrayed. The revision of the transcripts took place in two stages. The first, shortly after 
transcription, was performed by experienced reviewers from the C-ORAL-BRAZIL group. 
The second happened during the informational annotation also conducted by experient 
annotators from the C-ORAL-BRAZIL group. 

The segmentation of recorded stretches of speech followed L-AcT in its assumption that 
utterances make up the basic pragmatic unit of study. Here, it will be argued that the prag- 
matic definition used by the Language into Act Theory is compatible with gesture studies 
for two reasons: it is grounded on the same actional principles that are believed to regulate 
and organize speech, and it is easily implemented. Furthermore, it will be argued that the 
segmentation of gesture and speech cannot be conducted separately. 

As briefly said in section (2), the BGEST corpus is grounded on the L-AcT analytical 
categories. This theory holds as the basic unit of analysis the utterance, as it can be prosodi- 
cally and pragmatically interpreted and conveys a speech-act. When an utterance only carries 
a single information unit, it necessarily corresponds to a Comment unit, i.e., the informa- 
tional unit that conveys the illocution an utterance is simple ifit only conveys one information 
unit and it is complex when it portrays two or more units. The informational units that frame 
the illocutionary one (Comment), can be either textual or dialogic units. Textual units make 
up the linguistic content in the utterance and can be: Topic, Appendix of Comment or Topic, 
Locutive Introducer and Parenthetical. Dialogic units can be roughly referred to as units that 
regulate the interaction (Raso, 2014; Raso & Vieira, 2016). Their specifications will not be 
explored in this paper (Moneglia & Raso, 2014). In some cases, the isomorphism of one illo- 
cution per utterance is not held, in which case there are textual units named Stanzas. This 
happens often in monologues, in which the textual content is divided in Bounded Commen- 
taries, which indicate a sign of prosodic continuity, or in Multiple Commentaries, which form 
a prosodic pattern. Utterances can accommodate scanned units, which take place when the 
speaker must divide her/his uttering of speech for reasons other than to convey an informa- 
tion unit, e.g., breathing (Moneglia & Raso, 2014). 

This approach differs from others focused on the syntactic or interactional segmenta- 


tion of speech, based on complete predications or speech turns. By doing so, L-AcT is able 
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to describe more accurately verbless units and large differences in turn divisions caused by 
different text typologies (Cavalcante, 2015). Concerning gestures, this approach also differs 
from “apex-guided” approaches, such as Loehr (2004) that looked for the rhythm align- 
ment of the apex of gestures and pitch accents following the ToBI model (Pierrehumbert, 
1980). The L-AcT approach towards gestures is tightly bound to the coordination of pro- 
sodic breaks and the manual patterns that are associated with informational units. This has 
the practical benefit of being more easily implemented than approaches that adopt ges- 
ture-speech dissociated criteria. 

Another layer of annotation that was implemented in the BGEST corpus is the infor- 


mational one. 


3.3. Gesture annotation 

Gesture annotation followed the definitions proposed by Kendon (1972, 2004) organized 
in a hierarchy by Kita, van Gijn, and van der Hulst (1998), and systematized by Bressem, 
Ladewig, and Miller (2013). The gestural annotation was performed in the ELAN software 
(Wittenburg et al., 2006)? a multimodal, free and open-source data, annotation tool. The 
annotation adopted in the BGEST corpus is simplified in relation to the protocol provided 
by Bressem, Ladewig, and Müller (2013), thus, it provides only crucial information about 
movement, direction, hand shape and spatial position. 

The gesture is basically defined by its expressive phase, an energy peak that constitutes 
the semantic part of it. The stroke may be preceded by a preparation phase and followed 
by a retraction phase. The linear structure of (preparation), stroke (and retraction) is called 
a gesture phrase. They can be either isolated or compounded by sequences of phrases that 
are delimited by a rest position (when the hands and arms are relaxed). A sequence of 
gesture phrases is called a gesture unit. As an example of this first explanation, an excerpt 
of the bgest_oo1 file is shown. It is synchronized to the utterance “ai minha mae conheceu 


meu pai lá //” (en. and then my mom met my dad there //). 


2 http://www.tla.mpi.nl/tools/tla-tools/ela. 
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Figure 1. Gesture excursion (bgest_001, GU: 106, GP: 214). WM 


The participant (JUL) initially has her hands on her lap in a rest position. Then, JUL rais- 
es her right hand in a flat form handshape towards the center. In the third frame, the 
retraction of the gesture is depicted. As there is only one movement peak, the gesture is a 
single phrase and unit. 

It may happen that the stroke is composed of a series of repetitive movements, defined 
by Kita, van Gijn and van der Hulst (1998) as a repetitive phase, included in the attack label. 
When the stroke has a static peak of movement (McNeill, 2005), the stroke label is used 
and the hold marked in the movement tier. Figure 2 shows an excerpt from bgest_oo3, 
synchronous to the utterance “a ideia é tipo você quebrar isso em [/1] em / compreensão / 


né / &he / discussáo / e reproducao / basicamente / né //” (en. the idea is basically that you 


break it in [/1] in / comprehension / right / exhe / discussion / and reproduction / basically / 
right //). 


Figure 2. Gesture excursion of a unit compound by three gesture phrases (bgest_003, GU: 103). UM 


Each frame illustrates a different stroke with no rest position in between. This is a gesture 


unit compounded by three phrases. 
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At the level of fine-grained detailing, the annotation simplifies the protocols adopted. 
First, gesture types as indicated by McNeill’s (1992) were not included. This decision was 
made, because this specific annotation would require an extra validation step that would 
not be feasible in the time available for the research. Another difference is that the anno- 
tation was done with sound support, as “(...) if the goal is to annotate the co-speech gesture 
then the removal of the information relating to speech, with respect to which the gesture 
finds relevance, does not seem justified as it eliminates perceptually relevant information 
for its identification” (Cantalini & Moneglia, 2020, p.11). This decision is supported by 
Loehr (2004) and Cantalini (2018). 

As for the three levels of annotation for gestures predicted by Bressem, Ladewig, and 
Müller (2013), only some of the features were annotated. The annotation stage includes the 
three levels listed, all mandatory: 

1 Determining units: gestural unit and gesture phrase; 
2 Annotation of form: hand shape, orientation, spatial position, movement type, direc- 
tion of movement, movement quality; 


3 Motivation of form: mode of representation, action, motor pattern and image schema. 


Only the bold items were noted, taking into account that i) this step was simplified so that 
the annotation was informative, but not excessive; ii) the motivation of form was not ini- 
tially considered as relevant and, therefore, not considered in this annotation. Each of the 
annotated parameters is briefly explained below. 

Handshape is annotated according to its form during the stroke. The fingers used were 
not annotated, for the hand shape was already informative enough for our purposes. The 


parameters are fist, flat hand, single fingers, and combination of fingers. 


1. “Fist” 2. “Flat hand” 3. “Single fingers” 4. “Combination of fingers” 


a 


Figure 3. Hand configurations (Bressem, 2013, p.1085). 


Orientation refers to the orientation of the palm in relation to the body, using McNeill’s 


definition (1992, p.380). The features refer to the sagittal axis (considering a line perpen- 
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dicular to the body), which define if the gesture is towards center or away from center. 
When the gesture moves in relation to the torso, it can be towards body or away from body. 


The diagonal orientation of the hand was not noted. 
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Figure 4. Orientation of movement (Bressem, 2013, p.1088). 


There are six types of movement annotated in the corpus: straight, arched, circle, spiral, 


zigzag, and S-line. 


straight arced circle 
zigzag s-line spiral 


LPS & OLS COSY 
Figure 5. Movement types (Bressem, 2013, p.1088). 


The spatial reference of the gesture is taken from McNeill (1992, p.86) and sets the param- 
eters as center-center, center, periphery, and extreme periphery. They are arranged on a 


left-right and up-bottom axis, as shown below (Figure 6).3 


3 To annotate all the 11 possibilities predicted in the amount of data available would only disperse the data. 


Thus, simplifying the annotation was a way to try to gain explanatory power. 
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EXTREME i upper i 
PERIPHERY 1 i 
i i 
upper right upper left 
right CENTER- left 
CENTER 
lower right lower left 


Figure 6. Gesture position (McNeill, 1992, p.89). 


Usability 
A multimodal, aligned corpus provides easy and ready access to sound, text and image of the 
excerpt under scrutiny, allowing fruitful exploitation of it. For BGEST, the text-to-sound 
alignment was done using Praat (Boersma & Weenink, 2020) and imported into ELAN (Wit- 
tenburg et al., 2006), where gesture and speech annotation were coupled. Both software were 
chosen because they are free, open source and the tiers can be imported from one to the other. 
The annotation is hierarchically divided in tiers separated in speech and gesture. The 
speech tiers are annotated for terminal and no terminal breaks. The gesture tiers are annotat- 
ed for gesture units, phrases, and phases. The phases are subdivided in orientation, movement, 
handshape, and position. This enables the user not only to watch the video and follow the 
transcription but also to export the alignment of the data in a data frame format, to be easily 
comparable. Ready access to the audio and video allows one to see how crucial the gesture and 


prosody interplay is to speech segmentation. This can be seen in the following example: 


Example 3. Different segmentation possibilities based only on the transcription: 


GUI e isso náo só na cultura grega como a gente sabe que na cultura hebraica foi também a questáo 
da procedéncia né judaico-cristá por muito tempo &he é tipo isso me diga com quem andas dir- 
te-ei as manhas que tens sabe 
and this not only in Greek culture as we know of the Hebrew culture was as well the matter of ancestry 
right Judeo-Christian [ancestry] for a long time &he it is like this tell me who do you walk with and | will 
tell you and | will tell who you are you know 
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The possible segmentations to this excerpt, without access to the corresponding audio, 
would be (almost exclusively) guided by a syntactic paradigm. Below are some possibilities 
for such a segmentation: 

a [eisso nao só na cultura grega como a gente sabe que na cultura hebraica foi também a 
questáo da procedéncia né judaico-cristá por muito tempo] [&he] [é tipo isso me diga 
com quem andas dir-te-ei as manhas que tens sabe] 

b [[e isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também 
a questão da procedência né judaico-cristá por muito tempo]] [[&he] é tipo isso me diga 
com quem andas dir-te-ei as manhas que tens sabe]] 

c [le isso não só na cultura grega] [como a gente sabe que na cultura hebraica foi também] 
[a questão da procedência [né judaico-cristá] por muito tempo]] [She é tipo isso me 
diga com quem andas dir-te-ei as manhas que tens sabe] 

d [le isso nao só na cultura grega] [como a gente sabe que na cultura hebraica foi também 
a questáo da procedéncia né judaico-cristá por muito tempo]] [[&he] é tipo isso] [me 


diga com quem andas] [dir-te-ei as manhas que tens sabe] 


In (a), we would have a complex clause followed by an assertion, without internal divisions. 

In (b), the first clause could be internally divided in two. In (c), the clause could be even 

more divided, with an insertion as “né judaico-cristá” (right Judeo-Christian [ancestry]). 

The last possibility envisioned without access to audio would be an internal division of the 

second clause. 

Listening to the audio, the ambiguity concerning the syntactic organization of the ut- 
terance are restricted to two main possibilities, which would allow a corresponding accu- 
rate informational tagging. 

e [le isso] [não só na cultura grega] [como a gente sabe que na cultura hebraica] [foi 
também] [a questão da procedência] [né judaico-cristá] [por muito tempo] [&he] [é 
tipo isso]] [[me diga com quem andas] [dir-te-ei as manhas que tens] [sabe]] 

f [le isso] [não só na cultura grega] [como a gente sabe que na cultura hebraica] [foi 
também] [a questáo da procedéncia] [né judaico-cristá] [por muito tempo]] [[&he] [é 


tipo isso] [me diga com quem andas] [dir-te-ei as manhas que tens] [sabe]] 


Both possibilities sound plausible because they reflect the possible prosodic patterns. The 
doubt regards the placement of the terminal break that can follow por muito tempo or é 
tipo isso. The prosodic pattern supports both interpretations due to a sign of continuity in 


por muito tempo, weak enough to be a non-terminal break, but strong enough to not be 
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dismissed. The ambiguity is resolved by the video, which shows two gesture units aligned 
to each one of the utterances conveyed in the turn, thus leading to the segmentation in 


example 4. 


Example 4. Final segmentation with audio and video (bgest_002[3-4]): 4) WM 


*GUI: [3] e isso / náo só na cultura grega / como a gente sabe que na cultura hebraica / foi também / a 
questáo da procedéncia / né / judaico-cristá / por muito tempo / &he / é tipo isso // [4] me diga 
com quem andas / dir-te-ei as manhas que tens / sabe // 

Translation: [3] and this / not only in Greek culture / as we know of the Hebrew culture / was as well / 
the matter of ancestry / right / Judeo-Christian [ancestry] / for a long time / &he / it is like this // [4] tell 
me who do you walk with / and | will tell you and | will tell who you are / you know // 


Figure 7. Different gesture patterns in the excerpt (bgest_002[3-4]). 


In the first utterance, an iterated gesture with the right hand shaped in a combination of 
fingers moving in circles is made (frame 1). The second frame is synchronous to “por muito 
tempo” and is a straight movement. The third frame indicates how the participant used the 
rest position as a shifting device, implying it to indicate the termination of the last utter- 
ance. Another kind of pattern appears in “me diga com quem andas / dir-te-ei as manhas 
que tens / sabe //” with the right hand using the bench as support for a rhythmic gesture. 

Without ready access to aligned transcription, audio and video, this discussion would 
not be possible, leading to misinterpretation of the data. Neither would it be possible to go 
through the audio, make measurements, and associate it with the gesture pattern. 

This discussion indicates that despite the technological milestones that spoken corpo- 
ra have reached, another stretch must be taken to include multimodal information in the 
analysis of human interaction. Despite the myriad of information in multimodal data, the 
gestures and facial expressions that appear in the data are of the utmost importance to 


accurately describe and understand ongoing communication processes. 
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Conclusion 
The BGEST pilot project showed that the current state of art and technological devices at 
hand are not ideal but are sufficient to provide the means necessary for robust multimod- 
al data compilation projects. It is crucial to understand the decisions that have to be made 
along the process and, by doing so, what is left behind, what is feasible and goals to be 
pursued in the future. 

A set of those decisions was demonstrated in this paper, having action as its founda- 
tional point. The examples were drawn from the BGEST corpus to support the argument 
that the possibilities available for multimodal data compilation currently allow the devel- 


opment of multimodal corpora. 
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Resumen: En este artículo se describen las particularidades de la construcción del 
primer corpus paralelo amuzgo-español, el cual representa una fuente de datos 
reales para la investigación lingüística, particularmente, así como para el desarrollo 
de recursos y herramientas para lenguas escasamente representadas e, incluso, en 
peligro de extinción. Los procesos llevados a cabo durante la constitución del corpus 
se detallan de acuerdo con las siguientes fases: i) obtención de datos en la lengua 
mediante entrevistas realizadas en trabajo de campo, ii) transcripción de las entre- 
vistas; iii) procesamiento de la señal sonora en PRAAT para realizar análisis espec- 
trográficos; iv) creación de glosas y traducción al español; v) alineación semiautomá- 
tica de traducciones a partir de la correspondencia lingüística entre lenguas. 
Finalmente, se muestra el resultado de la implementación del corpus en una plata- 
forma web para la consulta pública. 

Abstract. In this article, a collaborative project to build the first parallel corpus Amuz- 


go-Spanish is described. The goal of this project is to provide a source with data 
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collected from colloquial speech in Amuzgo (glossed and translated into Spanish) for 
research, as well as for the development of tools for scarce resources languages. The 
processes carried out to compile the corpus are described according to the following 
phases: i) data collection in Amuzgo by means of linguistic fieldwork; ii) data tran- 
scription; iii) acoustic data processing with Praat to carry out spectrographic analysis; 
iv) glossing and translating data into Spanish; v) semiautomatic alignment of trans- 


lations. Finally, an open access tool is presented because of the corpus release. 


Introducción 

El lenguaje verbal es la vía más natural para que los seres humanos pueden manifestarse e 
interactuar entre sí. Las Tecnologías del Lenguaje Humano (TLH) buscan, desde una pers- 
pectiva que agrupa el conocimiento y las metodologías desarrolladas en diferentes campos y 
disciplinas, hacer que una computadora pueda analizar, interpretar, comprender y producir 
información que la faculte para la comunicación e interacción con cualquier ser humano a 
través del uso del lenguaje. Para lograrlo, además de un conjunto vasto de técnicas, métodos 
y algoritmos, es necesario que existan recursos que representen en un nivel micro el fenóme- 
no lingúístico que sucede a nivel macro. En este sentido, una de las formas más comunes para 
representar el lenguaje verbal, sea en su vertiente oral o escrita, es la constitución de corpus 
lingüísticos. Con este tipo de recursos, todo sistema computacional podría tener estructura- 
do el conocimiento lingiiistico y asi tener la posibilidad de determinar la estructura y signi- 
ficado de casi cualquier expresión lingüística (Manning y Shiitze, 1999), desde la fonética y 
la fonología hasta el discurso, pasando por la morfología, la sintaxis y la semántica. 

En este escenario de creación de recursos que sirvan como fuente de conocimiento, no 
solo para fines lingúísticos, antropológicos o sociales, sino incluso para cuestiones relacio- 
nadas con el desarrollo de tecnologías que permitan el tratamiento computacional del 
lenguaje, el trabajo realizado desde la segunda mitad del siglo pasado se ha centrado en un 
conjunto no muy amplio de lenguas, en donde el inglés es la lengua más representada; por 
citar un par de recursos muy conocidos, el Corpus Brown o el BNC. En este sentido, el 
español también ha sido una lengua que goza de una representación interesante en térmi- 
nos de corpus disponibles, baste mencionar tres de los más representativos: el Corpus de 
Referencia del Español Actual (CREA), el Corpus Diacrónico del Español (CORDE) y el 
Corpus del Español del Siglo XXI (CORPES). Asimismo, ha habido esfuerzos por repre- 
sentar algunas otras lenguas, muchas de ellas con una descripción lingüística muy com- 


pleta, como es el caso del italiano, el árabe y el alemán, entre otras (Quasthoff et al., 2006), 
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así como lenguas escasamente representadas, minoritarias o, incluso, en peligro de extin- 
ción (Prinsloo, 2015; Vinogradov, 2016; Midrigan et al., 2020). No obstante, hay muchas 
lenguas que en la actualidad carecen de representatividad, y no solo en términos de recur- 
sos, sino, en muchos casos, en términos de existencia de datos mínimos necesarios para 
realizar una descripción lingúística. Tal es el caso de varias lenguas indígenas mexicanas. 

En México, además del español, coexisten más de 60 lenguas indígenas, con sus respec- 
tivas variantes, las cuales son, en algunos casos, ininteligibles entre sí. Esta enorme diversidad 
se describe en el Catálogo de las lenguas indígenas nacionales: variantes lingüísticas de México 
con sus autodenominaciones y referencias geoestadísticas (INALI, 2008) en términos de 11 fa- 
milias lingitisticas, 68 agrupaciones y 364 variantes. De las 68 agrupaciones identificadas, las 
más representativas en términos de hablantes son el náhuatl, el maya, el mixteco y el zapote- 
co. La primera con más de un millón de hablantes, la segunda con alrededor de 800,000 
hablantes, mientras que las dos últimas con poco más de 400,000 hablantes cada una (INEGI, 
2015). Del resto de lenguas, algunas no llegan a los 1,000 hablantes, mientras que algunas 
otras están en vias de desaparición". Esta gran variedad de lenguas es, a todas luces, reflejo de 
una riqueza cultural y social, así como de una cosmovisión e identidad. No obstante, es evi- 
dente que desde la perspectiva de las TLH hay una insuficiencia de recursos, herramientas 
e, incluso, materiales lingitisticos para la gran mayoría de estas lenguas. Algunas de ellas, de 
forma sorprendente, a pesar de que han sido bien estudiadas y descritas. 

Dado el contexto presentado, en este artículo se describe un trabajo interinstitucional 
(Universidad Autónoma de Baja California e Instituto Nacional de Antropología e Histo- 
ria) relacionado con una lengua que, no obstante su estado de descripción y cantidad de 
hablantes, muestra ya un vínculo incipiente con las TLH: el amuzgo. 

El amuzgo o jnon3 nda3 se habla en algunas localidades de tres municipios de dos en- 
tidades federativas del sureste de México: Oaxaca y Guerrero. Cuenta con alrededor de 
60,000 hablantes (INEGI, 2015). A pesar de que existen trabajos descriptivos importantes 
y notables (Buck, 2000 y 2018), la lengua no ha sido documentada ni descrita de forma 
exhaustiva. En términos gramaticales, el amuzgo se caracteriza por contar con un reper- 
torio extenso de clases léxicas, lo que se manifiesta en una alta complejidad verbal (Smith 
y Tapia, 2002; Apóstol, 2014), un conjunto amplio de pronombres personales (Buck, 2015; 
Palancar y Feist, 2015), así como en el empleo de tonos fonológicos para la marcación de 
distintos significados morfológicos, tales como la posesión (Hernández et al., 2017; García 


et al., en prensa). 


Algunos de los casos más extremos serían el ayapaneco, el oluteco, el tuzanteco, el moocho? y el kiliwa. 


165 


Digital Humanities, Corpus and Language Technology 


La constitución del corpus paralelo, que es el objetivo de este trabajo, se sustenta en la 
obtención de muestras reales de habla en amuzgo mediante entrevistas realizadas en cam- 
po con hablantes nativos de la lengua. Al respecto, es importante destacar que la creación 
de este recurso, además de ser un aporte para aumentar la atención a las lenguas escasa- 
mente representadas e, incluso, en peligro de extinción, permitirá el desarrollo de nuevos 
recursos que pueden aprovechar el conocimiento explícito e implícito de los materiales que 
integran el corpus. Por ejemplo, desde el ámbito de la traducción automática, para mejorar 
los procesos de alineación entre segmentos del texto origen y el texto meta o, por otro lado, 
para desarrollar sistemas de extracción de información sustentados en las características 
intrínsecas de la lengua. 

A continuación se presenta la organización de los contenidos tratados en el artículo: en 
la Sección 2 se presentará el estado del arte de los trabajos de TLH relacionados con las lenguas 
indígenas mexicana. En la Sección 3 se detallarán algunas características lingüísticas repre- 
sentativas de la lengua amuzga. La Sección 4 describirá el proceso para la obtención de los 
datos orales, así como el procesamiento espectrográfico y textual de los mismos. En la Sección 
5 se explicará el proceso de glosado y de traducción al español, así como el trabajo de alinea- 
ción de las traducciones y la liberación de una primera versión del corpus en una plataforma 
web. Finalmente, en la Sección 6 se presentarán las conclusiones, centrando la atención en 


algunos resultados alcanzados, así como resaltando las líneas de trabajo futuro. 


2. El tratamiento tecnológico de las lenguas indígenas mexicanas 
De acuerdo con los datos presentados en el documento Análisis del Sector de las Tecnolo- 
gías del Lenguaje en México (2018, p.49), la existencia de recursos en lenguas indígenas de 
América Latina es casi inexistente. Una de las principales causas, señalan, es la mínima 
presencia de datos, en el plano escrito, tanto en medios tradicionales, tales como textos 
impresos, así como en medios electrónicos, sean estos contenidos web o de redes sociales. 
A lo anterior, se puede añadir el hecho que se mencionó en la sección previa: hay varias 
lenguas indígenas que no cuentan con la descripción lingúística suficiente, ya sea porque 
no han sido atendidas en un sentido académico, o bien, porque su gramática es difícil o la 


consecución de datos es altamente complicada y, en ocasiones, riesgosa”. 


2 Al respecto hay que puntualizar que esta situación representa, además de una desventaja académica, una de 
las consecuencias inmediatas de lo que se conoce como brecha tecnológica o digital. Como se sabe, este es un 
problema de muy diversa índole (económica, educativa, informativa, política y social) que pone de manifiesto, 
por un lado, la marginación de las comunidades indígenas de México y otras latitudes del mundo y, por otro, 
la incapacidad para emplear, adquirir y generar recursos tecnológicos que, en un contexto generalizado de 
inequidad e injusticia, termina por excluir a estas comunidades (cf. Acosta & Aguilar, 2020; Arévalo, 2015). 
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A pesar de esta situación poco alentadora, en Mager, Gutiérrez, Sierra y Meza (2018), 
se listan algunos recursos digitales en estas lenguas. Entre ellos, destacan un par de corpus 
paralelos, así como herramientas para análisis morfológico para algunas lenguas de las 
familias otamangue y uto-azteca. De manera más específica, en tareas relacionadas con la 
constitución y explotación de corpus, se pueden citar los trabajos de Gutiérrez (2015) y 
Gutiérrez, Sierra y Hernández (2016) en los que presentan el trabajo realizado con un 
corpus paralelo náhuatl-español. 

Por otra parte, en un artículo de 2016, Mager, Barrón y Meza describen un acercamien- 
to ala traducción estadística automática entre dos lenguas que en términos tipológicos son 
muy diferentes: el wixarika y el español. Los autores detallan una aproximación basada en 
la descomposición morfológica para mejorar los procesos de alineamiento con las traduc- 
ciones al español y paliar la ausencia de datos en wixarika (Mager et al., 2016, p.64-64). En 
otra linea de trabajo, en el proyecto Digging Early Colonial History? han utilizado técnicas 
y herramientas de PLN y aprendizaje automático para realizar tareas de anotación con 
documentos históricos, mayoritariamente en español, pero en los cuales también aparecen 
datos en lenguas como el náhuatl, el mixteco y el maya. 

En trabajos más relacionados con la oralidad se puede citar la investigación publicada 
por Castellanos et al. (2019, p.21), en la que se detallan los resultados de una aproximación 
para evaluar la pronunciación de aprendices de lenguas indígenas, particularmente del 
mixe, aplicando técnicas de modelado y reconocimiento de voz. Asimismo, el trabajo de- 
sarrollado por Cruz y Waring (2019) acerca del uso de redes neuronales para el reconoci- 
miento automático de voz en chatino o el de Adams et al. (2018), también para el chatino, 
en el que se focaliza la importancia y complejidad del proceso de transcripción y anotación 
de los datos orales, al igual que el tratamiento adecuado de la información tonal de esta 
lengua. Esto último es de suma importancia, puesto que el tono, como se verá más adelan- 
te en este trabajo, constituye un elemento de la lengua amuzga esencial para marcar (dotar 
de sentido) elementos gramaticales específicos, lo cual dista mucho de lo que ocurre en 


lenguas como el náhuatl, el wixarika o el mixe*. 


3 Información detallada del proyecto se puede consultar en https://www.lancaster.ac.uk/digging-ecm/es/inicio/ 

4 En efecto, la morfología y la sintaxis de estos dos tipos de lenguas, las tonales (el chatino), por un lado, y 
las no tonales (como el wixarika, uno de los ejemplos citados), por el otro, son diferentes. El primero de los 
casos es un ejemplo de lenguas no concatenativas (sus morfemas no están necesariamente representados 
por segmentos discretos, ya que el tono, o alguna derivación fonológica de este rasgo, es un recurso para la 
marcación; es decir, el tono no se ubica de forma exclusiva en un nivel léxico, sino que puede llegar a uno 
de contenido gramatical), en tanto que el segundo se trata de una lengua concatenativa discreta, esto es, 
siempre con morfemas segmentables. 
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Por ultimo, desde una perspectiva mas relacionada con la industria, se puede subrayar 
el trabajo realizado por algunas pequeñas empresas, así como grandes compañías como 
Google y Microsoft, que en conjunto con instituciones gubernamentales o académicas, han 
generado algunos recursos en lenguas indígenas mexicanas del tipo de repositorios de 


información, traductores o apps para su aprendizaje (cf. ASTLM, 2018:51-52). 


Características linguisticas del amuzgo 

En esta sección se caracteriza la familia lingúística a la que pertenece el amuzgo con el 
propósito de facilitar la presentación de los rasgos lingitisticos esenciales de dicha lengua. 
Se verá que el término otomangue remite a un conjunto de sistemas complejos y diversifi- 


cados. 


Familia otomangue 

La familia otomangue en su conjunto siempre ha sido objeto de interés debido, principal- 
mente, a sus características lingüísticas, muy distintas a las de otras lenguas habladas en 
territorio mexicano, así como a la diversidad que existe en su interior. Pese a concentrarse 
en un espacio geográfico definido (la hipótesis que sustenta el origen y la integración de la 
familia considera al subtiaba y al mangue, hoy en día extintos, los cuales se hablaron en 
Nicaragua, lo cual rompería esta idea de continuum), cada una de las lenguas que compo- 
nen la familia cuenta con un buen número de variantes, situación que obliga a pensar si se 
trata de una familia de lenguas o, más bien, de una macrofamilia de familias; esto es, algu- 
nas variantes, incluso, podrían llegar a considerarse lenguas diferenciadas de las otras 
variantes que componen a una agrupación, para emplear la terminología del Instituto 
Nacional de Lenguas Indígenas. Este es el caso de la llamada subfamilia amuzgo-mixteca- 


na (Campbell, 1997), a la cual pertenece el amuzgo. 


Subfamilia amuzgo-mixtecana 
El conjunto de lenguas amuzgo-mixtecanas pertenecen al otomangue del este (Campbell, 
1997: 158). En esta división también se encuentran el popoloca, el mazateco, el ixcateco, el 
chocho, el zapoteco y el chatino. Como se ha dicho, la variedad interna en estas lenguas es 
amplia. En el caso concreto del amuzgo se ha señalado que, en términos históricos, han 
existido tres variantes: Xochistlahuaca, San Pedro Amuzgos e Ipalapa (habría otra, Tlacoa- 
chistlahuaca, sobre la que no se conoce mucho). En la actualidad, se considera que solo en 
dos de estos municipios existen hablantes: Xochistlahuaca (Guerrero) y San Pedro Amuz- 


gos (Oaxaca). Estas demarcaciones territoriales y administrativas conforman por sí mis- 
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mas dos variantes plenamente diferenciadas en casi todos los planos lingüísticos. No obs- 
tante, el INALI (2008) identifica cuatro variedades (amuzgo alto del este, amuzgo bajo del 
este, amuzgo del norte y amuzgo del sur). Por su parte, el resto de las lenguas amuzgo-mix- 
tecanas tienen los siguientes números de variantes: mixteco (81), tacuate (1, la cual, en 


términos lingúísticos, parece haberse separado del mixteco), cuicateco (3) y triqui (4). 


3.2. El amuzgo 
Las características gramaticales del amuzgo se agrupan en torno de los niveles de análisis 
lingüísticos tradicionales”. De esta manera, en un sentido elemental, se reconocen aspectos 
fonético-fonológicos, morfológicos y sintácticos. Sin embargo, el amuzgo al ser una lengua 
en la que el tono (frecuencia acústica que se produce al interior de unidades fonológicas 
como la sílaba), además de las distinciones semánticas que produce en el léxico, (véase 


ejemplo 1), interactúa con la morfología (ejemplo 2) y la sintaxis (ejemplos 3 y 4)*. 


1. a. su? Ilano 
b. su ‘copal’ 

2. a. ba? ‘su casa (de él/ella)’ 
b. ba* ‘tu casa’ 

3. a. ki'tsian' ‘tigre’ 
b. ki'tsiantan? el tigre’ 

4. a. tsanjni? ‘persona malvada' 


b. tsan%nitit “la persona malvada' 


Como se puede ver en los ejemplos anteriores, un cambio en el tono (de medio a alto en 
1a y 1b, así como de bajo a súper alto en 2a y 2b) comporta un cambio importante en el 
significado de la palabra. En los ejemplos de 3 y 4 lo que se muestra es la forma en la que 
se construye el sentido definido de una frase nominal, el cual también está asociado a un 
fenómeno tonal. Obsérvese que en 3b y 4b, ejemplos en los que las frases nominales se 


encuentran definidas, la última sílaba es una copia de la precedente. No obstante, en 3b el 


5 Otro tipo de caracterizaciones de la lengua, como las de corte sociolingüístico, se delinean en varios sen- 
tidos. En las primeras secciones de este trabajo se incorporaron algunos de los datos más destacados en 
términos poblacionales. Al respecto se entiende que la descripción que se hace de una lengua en términos 
de las necesidades de las TLH debe ser lo más amplia posible o, por lo menos, tiene que estar apegada a los 
fines del trabajo. Por ejemplo, más allá de una descripción lingüística adecuada y profunda, en un ámbito 
donde la creación de recursos tenga que ver con lo judicial, sin duda, la pragmática, por un lado, y la enton- 
ación, por el otro, serían sumamente relevantes. 

6 Los superíndices indican el tipo de tono: 1 bajo, 2 medio, 3 alto, 4 súper alto y 5 extra alto. Con estas posibili- 
dades, se pueden formar ciertas combinaciones. 
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tono alto se mantiene en la silaba que resulta de dicha copia, mientras que en 4b, esto no 
sucede. La explicación de esta circunstancia es que cuando el tono de la última sílaba de 
una palabra es medio, el llamado artículo definido no puede tener un tono medio, por lo 
que tiene que cambiar a uno bajo. 

En concreto, el sistema fonológico del amuzgo se compone por 15 consonantes (entre 
las que se cuentan dos prenasales, tres que son producto del contacto con el español, la /p/, 
la /1/ y la /r/, asi como una con baja frecuencia de uso, la /m/). Asimismo, existen 7 vocales, 
algunas de la cuales muestran oposiciones entre abiertas y cerradas, fundamentalmente en 
las medias (/e/, /o/), en tanto que otras tienen contrastes entre orales y nasales (de nueva 
cuenta, las medias, así como la baja, o sea, la /a/, y la anterior abierta, /e/). Por otra parte, 
los tonos de la lengua son, en total, siete; cinco considerados de nivel (los explicados en 
nota 5: bajo, medio, alto, súper alto y extra alto) y 2 de contorno (medio-bajo, medio-alto)”. 

En cuanto a otros aspectos centrales de la lengua, esta es de marcación en el núcleo 
(salvo en las terceras personas), las relaciones sintácticas se dan por yuxtaposición, o sea, 
no se morfologizan y, como menciona Hernández (2019), el predicado no lleva de manera 
sistemática afijos para una referencia cruzada con el sujeto. Según Smith y Tapia (1984), el 
amuzgo presenta un orden de constituyentes Verbo-Sujeto-Objeto en las construcciones 
transitivas, mientras que para las intransitivas se mantiene el verbo en posición inicial. De 
igual manera, en palabras de estos autores, hay un sistema escindido en las intransitivas, 
de forma tal que la codificación es distinta entre las intransitivas agentivas, las intransitivas 
pacientivas y las intransitivas estativas. 

El sistema de personas gramaticales se organiza en tres (primera, segunda y tercera) 
con sus distinciones respectivas entre singular y plural. En la tercera persona de plural se 
hace una diferencia entre inclusión del escucha y la exclusión de este. La complejidad 


morfológica ha obligado a proponer un peso fuerte de las clases léxicas. 


Diseño del corpus: fase monolingúe en amuzgo 

A continuación se describen las fases de trabajo para la construcción del corpus. En par- 
ticular, las relativas a la obtención y procesamiento de los datos en amuzgo. Al respecto, es 
necesario remarcar que se trata de material recopilado en un ambiente natural, esto es, se 
planeó, registró y estructuró en campo. En consecuencia, el corpus se puede caracterizar 


como representativo de un habla natural, diverso y actual, en correspondencia con los 


La complejidad fonológica de la lengua es amplia, por cuestiones de espacio no puede ser abordada aquí. 
Para mayores detalles, consúltese Hernández (2019). 
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grupos etarios que conforman la muestra. Estas características, sin duda, son las que, en 
determinado momento, resaltarán cuando la información se traduzca en aplicaciones rela- 
cionadas con las necesidades propias de la comunidad de habla, como aquellas relaciona- 


das con la atención en servicios de salud y justicia. 


Obtención de datos orales 

Aunque en este trabajo se presenta una parte del corpus conformado, su totalidad engloba 
la participación de un grupo de personas adultas, jóvenes e infantes, tanto hombres como 
mujeres en cada subconjunto. En este sentido, hasta el momento se ha trabajado con dos 
personas en cada franja etaria (la cual no coincide necesariamente con la del sistema urba- 
no debido a la forma de vida comunitaria en la que, desde la infancia, se adquieren respon- 
sabilidades familiares). 

Asimismo, en relación con la información de corte social con la cual, tradicionalmen- 
te, se organiza e identifica un corpus, se consideraron las circunstancias de vida de cada 
participante con el propósito de observar su conocimiento, control y dominio de la lengua. 
Por ejemplo, se aplicó un pequeño y sencillo instrumento en el que se captó información 
referente a la frecuencia y los contextos de uso de la lengua. Esto contribuyó a catalogar a 
quienes colaboraron en la investigación en atención al bilingüismo o monolingitismo mos- 
trados, o bien, a su actitud frente a la lengua (hablantes pasivos, por ejemplo). En las 
condiciones actuales del mundo, cada vez se hace más necesario abrir un espacio para 
hablar de la migración. En un estudio que parte de la configuración sistemática de un 
corpus, el estatus migratorio de las personas es relevante porque da una ilustración más 
precisa de su comportamiento lingúístico. En efecto, un(a) migrante reacciona, después de 
su experiencia como tal, de forma muy diversa a una interacción comunicativa. Al respec- 
to, los extremos a considerar serían: desiste de hablar su lengua o se torna un(a) purista de 
ella. En el punto medio quedaría la facultad de introducir préstamos lingüísticos con ma- 
yor o menor resistencia. Lo anterior, no hay duda de ello, incide en el tipo de información 
que se recolecta y obliga a imaginar nuevas formas de documentación o, en todo caso, a la 
aceptación de la nueva realidad. 

Debido a lo que se comenta (el panorama es mucho más complejo y amplio de que lo que 
aquí se presenta), a cada una de las personas que colaboró en la investigación se le solicitó 
una anécdota o historia de vida, propia o ajena, al igual que una narración tradicional; sola- 
mente en algunos casos se incluyeron diálogos y entrevistas. De esta manera, se procuró 
estructurar un corpus real, espontáneo, natural, diverso, con información suficiente, repre- 


sentativo y cuidado, en el que las diferentes fases de la vida cotidiana y formas de interacción 
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(con estructuras lingüísticas comunes y variadas) se encontraran representadas. Al final, se 
logró conformar un material cercano a las ocho horas de duración. En este trabajo se ejem- 
plifica con la información concerniente a una narración (La esposa del zorro) en la que se 
relata el intento de rescate de la esposa del zorro, que emprenden, por separado, un tigre, una 
vaca y un conejo. Resulta llamativo que, en la cultura amuzga, se observe una divergencia de 
aquello que se ha mostrado en la tradición literaria conocida como occidental. En este caso 
no se trata de un animal astuto, inteligente, tramposo, malo, cizañero o sagaz, sino, más bien, 
de un ser pasivo que sufre y no actúa, no muestra ni coraje ni ánimo, lo que lo lleva a caer 
pronto en la desesperación. Por tal razón, el tigre, la vaca y el conejo, en diferentes oportuni- 
dades, le ofrecen su ayuda al mirar la impotencia con la que vive. 

Todo el material que se obtuvo se registró en audios, los cuales posteriormente fueron 
utilizados para guiar el proceso de transcripción, así como el de análisis acústico en herra- 
mientas tales como Praat y ELAN. Los resultados del tratamiento de la señal sonora ser- 
virán como base para desarrollar una línea de trabajo futuro que contempla el diseño y 
construcción de un corpus oral en amuzgo, así como de herramientas que permitan sacar 


provecho al material ahí registrado. 


Procesamiento de la señal acústica 
Tal como se describió en la Sección 3.2, las características fonológicas del amuzgo son muy 
complejas, de ahí que el tratamiento de la señal acústica se convierta en un elemento relevan- 
te para el estudio de la lengua. En este sentido, aunque el objetivo del trabajo es crear un 
corpus paralelo de tipo textual, no se descarta que los datos recogidos para la construcción del 
corpus se utilicen para sentar las bases de un nuevo corpus de tipo oral a nivel monolingúe. 
Ahora bien, independiente a esta línea de trabajo futuro, para la construcción del cor- 
pus paralelo amuzgo-español fue necesario procesar la señal acústica con el fin de tener un 
componente que sirviera de guía para el proceso posterior de transcripción. Para ello, se 
hizo uso de herramientas auxiliares para el análisis del habla que garantizaran la fidelidad 
de los datos. En principio, se utilizó Praat para estar en posibilidades de realizar análisis de 
habla, etiquetado y segmentación, síntesis y manipulación de habla, así como cuestiones 
relacionadas con representaciones gráficas y de experimentación. Hay que reconocer que, 
en general, esta herramienta no soporta de forma eficiente cadenas de habla largas. Por 
esto se utilizó, fundamentalmente, para analizar entradas léxicas en las que existiera algu- 
na duda respecto al tono de la palabra fonológica. En la Figura 1 se presenta un ejemplo de 
una cadena en la que se contrastan palabras con la misma conformación silábica, pero con 


contrastes tonales. 
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AEI HP 


gs. zoom in to at most 10 seconds, 


or raise the “longest analysis” setting with “Show analyses” in the View menu.) 


s 1 


Visible part 10.881396 seconds 
Total duration 10.881396 seconds 


Lal a f ofi se fi ofi] 


Figura 1. Diferenciación tonal del espectro acústico en amuzgo. 


En contraparte, con ELAN se tuvo la posibilidad de analizar cadenas de habla más exten- 
sas; esto facilitará la incorporación de información multimodal a ese futuro corpus oral 
con el que se incrementarán las posibilidades de estudio de estos datos. Finalmente, como 
resultado del procesamiento acústico, se generó información relativa a la duración, el tiem- 
po de emisión, el acento, así como a los formantes (pico de la intensidad o concentración 


de energía de una frecuencia) con los que, entre otras cuestiones, se distinguen las vocales. 


Transcripción 

El procedimiento específico de esta etapa se dio de la forma en la que se describe a conti- 
nuación. En primer lugar, en lo que corresponde con la transcripción, se distinguieron los 
segmentos. A partir de este momento se planificó un cotejo entre lo hecho en las notas de 
campo y los espectrogramas que arroja Praat. En segundo lugar, se puntualizó en el regis- 
tro de rasgos fonológicos específicos, tales como apertura vocálica, nasalidad y laringeali- 
zación. En tercer lugar, como se muestra en el ejemplo 5, se hizo un primer acercamiento 
a los tonos de la lengua. Debido a que esta es una característica fundamental en amuzgo, 
se debía tener cuidado en una anotación precisa. Por tanto, se anticipaban y aceptaban 


modificaciones. 
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5. 1. Twe*nkwi'xue” man’ kwisti”*tyo*ndye* tsa’ ti”, 
2. tsian*jndé”, tyua”” ju’ sku’ ti kas ti’? jndé”, 
Mo” twe” nkwi? xue’ t-ja? ti”, 
té'kiétsa ti” ts'ians, 


no” ya” tje” ti” tyua je”, 


3 

4 

5 

6. taa*nna? sku” ti”” kon’, 
7. No'ma®kje® tatson® ti”? nge të'non” tsan*nji”, 

8. té"yon*” jon” skw” ti”, xue” jon” sku’? ti””. Nojo”, 
9. ‘nni? ‘nna ntsa'> ti’, Ma? té’kjo® ti”, 

10. teo” ti”, 

1. ndo” hu>xjen ‘nein? tje” kwi’ ki’tsian”, 

12. tso” ki'tsian”an: 

13. ndo” uw tyo*ndye*re”, ndu”? maètyo’4, 

14. “Ajo'je”. Mateo? mange? 

15. hu*tsan**nji” tje?jon* ba’ no” tsia3na? tja jon” 


16. té"yon jon” sku’. 


Para preparar las siguientes fases, cada uno de los textos resultantes se segmentó en cláusulas, 
las cuales se marcaron con número arábigos (en el ejemplo de arriba, la numeración aludida 
va del 1 al 16). Esta es una manera eficaz de organizar los textos y facilitar el análisis de glosado 


y traducción. 


Construcción del corpus: fase paralela amuzgo-español 
En esta sección se describen los procesos para la obtención de los datos en español con el 


propósito de conformar la estructura en paralelo amuzgo-español. 


Glosado y traducción 

Una vez que se realizaron los procesos previos, se tomó la decisión de trabajar con las 
transcripciones con el fin de expandir las posibilidades del corpus. Para ello, se realizó un 
proceso de glosado y de traducción de los datos. Las etapas relacionadas con la generación 
de glosas se esquematizan a continuación: 

¡ Limpieza de las transcripciones para preparar el trabajo de glosado. 

ii Empleo del sistema ortográfico más consistente (Tapia, 2006) y contraste con el pro- 


puesto por Hernández (2019). 
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iii Verificación de rasgos fonológicos relacionados con el acento para distinguir entre pa- 
labra fonológica (incluye los clíticos) y entrada léxica. 

iv Marcación de los clíticos. 

v Segmentación de los distintos tipos de frase: verbal, nominal, adverbial, etc. 

vi Realización de la glosa de cada cláusula de acuerdo con las reglas de glosado de Leipzig 


(Comrie et al., 2008). 


El glosado, como se sabe, incluye tanto la segmentación como la identificación de la cate- 
goría gramatical (no funcional) de las unidades reconocidas. La última fase del análisis 
previo a la formalización de los datos en amuzgo fue la traducción de estos al español. Esta 
traducción se realizó en tres pasos. Primero, una interpretación general del texto en la 
lengua origen. Segundo, una alineación manual de las categorías gramaticales identificadas 
con sus respectivos significados (en este proceso se privilegió una traducción literal, man- 
teniendo incluso el orden que se presentó en las oraciones en la lengua origen). Tercero, 
formalización de la traducción considerando el sentido oracional, la correspondencia entre 
categorías y la información producida mediante el proceso de glosado. 

Este proceso de traducción fue realizado por un traductor humano, hablante nativo de 
amuzgo y español, con formación profesional en lingüística amerindia. Dadas estas carac- 
terísticas, se aseguró que la traducción fuera lo más fiel posible, tanto en términos de co- 
rrespondencia lingúística como de función comunicativa, para poder realizar los procesos 
automatizados de alineación de segmentos. En la Figura 2 se ejemplifica el resultado del 
proceso general de traducción. En ella se observan algunos segmentos transcritos en la 
lengua origen (línea 1) con sus respectivas segmentaciones y glosas (líneas 2 y 3), así como 


una primera traducción basada en el tercer paso de la traducción (línea 4). 
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Twe”? nkwi*xue!? m’an? kwi'*ti’?tyo*ndye* ts’ a’ ti’? 
T-we? nkwi?=xue!? man kw? ti!?=tyo°ndye?  o-tsa ti?!” 
CPL-haber.3sG ART.INDEF.SG=día HAB.estar.3sG uno compafiero=zorro PROG-hacer[3sG] compañero 


Hubo una vez un zorro 


tsian’ jndé!?, tyua’!? ju sku’ ti’? k’a® ti’? jndë”. 


ts’ian? jndé!? tyua’!? o-ju>> sky? apa o-k’a?? tre jndé!? 
trabajo monte temprano PROG-moler. 3SG esposa[3sG] compañero  HAB.ir[3sG] compañero monte 


que trabajaba en el campo, temprano molia su esposa [y] él iba al monte. 


Mo”*? twe”? nkwi? xue? t-ja? ti”? 
mo”? t-we? nkw? xue?  tjad tr! 
pero CPL-haber.3sG uno día CPL-ir[3sG] compañero 


Pero hubo un día 


té'kitsa®> 12 ts"ian 
të!-ki?-tsa ti??? tsian 
CPL-CAUS-hacer[3sG] compañero trabajo 


que fue al trabajo 


no”! ya? tyes t? 2 tyua Pje” 
no’! ya? t-jes* tir? tyua’!?=je!? 
y cuando cPL-llegar[3sG] compañero temprano=INT 


y cuando llegó más temprano a [su] casa 


aa nna? sku’? ti’? k'on’. 


2712 


t’aa?="nna? sku’? ti kon? 
NEG=cosa esposa[3sG] compañero HAB. estar[3sG] 


ya no se encontraba su esposa. 


Figura 2. Ejemplo de segmentos transcritos en amuzgo con sus respectivas glosas y traducción al español. 


Alineación automática de segmentos 

La siguiente fase de construcción consistió en realizar un proceso automático para alinear 
los textos transcritos en amuzgo con sus correspondientes traducciones al español. Esta 
fase es de suma importancia para poder concretar todo corpus que tenga como caracterís- 
tica el ser paralelo. Para realizar este proceso se utilizó la herramienta de alineación que 
está implementada en el programa de Traducción Asistida por Computadora (TAC), Ome- 
gaT. Se decidió utilizar esta herramienta dado que el proceso de alineación se hace con base 
en el algoritmo de Gale-Church (1993), el cual ha sido utilizado en varios trabajos de lin- 
güística computacional. Este algoritmo es independiente de la lengua, es decir, no es nece- 
saria una gramática, en este caso del amuzgo, ni tampoco grandes volúmenes de datos para 
poder emparejar los segmentos. Pondera, en contraparte, la longitud de los segmentos para 
realizar la alineación con base en el supuesto de que las construcciones largas en la lengua 


origen deben corresponderse con construcciones de longitud similar en la lengua meta. 
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La alineación se hizo considerando los dos métodos de comparación de segmentos 


implementados en la herramienta: el método parsewise y el método heapwise. El primero 


privilegia el paralelismo sintáctico entre lenguas a partir de la alineación unitaria de seg- 


mentos, en tanto que el segundo privilegia una alineación global de los textos. Ambos 


métodos arrojaron resultados diferentes, cuya calidad fue evaluada con base en la infor- 


mación de las glosas y la traducción literal. En las figuras 3 y 4 se ejemplifican los resultados 


del proceso de alineación para un mismo fragmento. En la figura 3 se destaca el método 


heapwise, mientras que en la 4, el parsewise. 


Alinear 


Original 

Twe’ nkwixue m'an kwiti’tyondye ts'a ti”, 
ts'ian jndé, tyua’ ju’ sku’ ti’ k’a ti’ jndé, 
Mo’ twe’ nkwi xue t-ja ti’, tékitsa ti’ ts’ian, 
no’ ya tje ti’ tyua’je, t'aa'nna sku’ ti’ k’on, 
No’ ma’kje tats’on ti’ ng’e ténon tsannji , 
té’yon jon sku’ ti’, xue’ jon sku’ ti’. 


Nojo, ‘nni ‘nna ntsa’ ti’. 

Ma tékjo ti’, t’eo ti’, 

ndo’ huxjen ‘nein tje kwikitsian, 
tso’ kitsianan’: ndo’ u’ tyondyere, 
ndu matyo’, ‘ajoje. 


Mat’eo mang’e hutsan nji tje jon b’a no’ 
tsiana tja jon té’yon jon sku’. 


No'jo tso kitsianan’: ti’ndyoto 


no’ ti’nkon’ tonyomatson’ sku’ nein jokionkwe, 


tso kitsianan’ nnu ti’tyondyee’. 


Jo jnon ti’ 
na’ t’éo’ ti’. 


Traducido 
Hubo una vez un Zorro que trabajaba en el campo, 
temprano molia su esposa [y] él iba al monte. 


Pero hubo un dia que fue al trabajo 
y cuando llegó más temprano a [su] casa 
ya no se encontraba su esposa. 


De inmediato se enteró que pasó una persona malvada 
que se robó a su esposa. 

Entonces ¿qué haría el zorro? 

Sólo se sentó y lloró, (y) en ese momento llegó un tigre, 
dijo el tigre: “y tú amigo zorro, ¿por qué lloras?” 

“Lloro porque la persona malvada 

llegó a mi casa y cuando se fue se llevó a mi esposa”. 


Entonces le dijo el tigre: “no llores 

y no te preocupes, tu esposa hoy la voy a ir a traer”, 
dijo el tigre al zorro. 

Entonces el zorro 

dejó de llorar. 


Figura 3. Alineación mediante el método heapwise. 
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Alinear 


Original 

Twe’ nkwixue m'an kwiti’tyondye ts'a ti’, ts'ian jndé, 
tyua’ ju’ sku’ ti’ k'a ti’ jndé, Mo’ twe’ nkwi xue t-ja ti’, 
tékitsa ti’ ts’ian, no’ ya tje ti’ tyua’je, t’aa’nna sku’ 

ti’ Kon, No’ ma’kje tats’on ti’ ng’e ténon tsannji , 
té’yon jon sku’ ti”, xue’ jon sku’ ti’. 


Nojo, ‘nni ‘nna ntsa’ ti’. 
Ma tékjo ti’, teo ti’, ndo” huxjen ‘nein tje kwikitsian, 
tso’ kitsianan’: ndo’ u’ tyondyere, ndu matyo’, ‘ajoje. 


Mat’eo mang’e hutsan nji tje jon b’a no’ 

tsiana tja jon té’yon jon sku’. 

No'jo tso kitsianan’: ti’ndyoto no’ ti’nkon’ 
tonyomatson’ sku’ nein jokionkwe, 

tso kitsianan’ nnu ti’tyondyee’. 

Jo jnon ti’ na’ t’éo’ ti’. 

Tja kitsian yana tje kitsianan’ b'a tsan njii’, yajo tsoo’: 
nkiachjob’are, taa’nnat’a tsan njii’ b’i jon. 


No’ u’re, ‘nni ‘nna mandue’ manti’ tsit’uantson’re, 
janjokwaxye ‘amayu u’ njoyon sku ti’ sku ti’ 
tyondyee”, tio ti’ m'a ti’. 


Ntjo jekindye ntjo jekindyenkwaxye nnö’, 
tsannji b'ijon ‘nni ‘nna njaan, 
tyon tinkiandhe binaya’. 


Figura 4. Alineación mediante el método parsewise. 


Traducido 
Hubo una vez un zorro que trabajaba en el campo, 
temprano molía su esposa [y] él iba al monte. 


Pero hubo un día que fue al trabajo y cuando llegó más 
temprano a [su] casa ya no se encontraba su esposa. 
De inmediato se enteró que pasó una persona malvada 
que se robó a su esposa. 

Entonces ¿qué haría el zorro? 

Sólo se sentó y lloró, (y) en ese momento llegó un tigre, 
dijo el tigre: “y tú amigo zorro, ¿por qué lloras?” 

“Lloro porque la persona malvada llegó a mi casa 

y cuando se fue se llevó a mi esposa”. 


Entonces le dijo el tigre: “no llores y 
no te preocupes, tu esposa hoy la voy 
a ir a traer”, dijo el tigre al zorro. 
Entonces el zorro dejó de llorar. 


Fue el tigre a la casa de la persona malvada, 
cuando llegó a la casa de la persona malvada, 
en ese momento dijo: “vengo a tu casa amigo”, 
no contestó la persona malvada estaba enojada. 


“Y tú amigo, ¿qué cosa andas buscando?” 
“Disculpa amigo, vengo a preguntar 

si tú en verdad te robaste a la 

esposa del zorro, el amigo está llorando”. 


“Aquí no puedes preguntar nada”, 
respondió enojada la persona malvada. 


Depuración manual y realineación de segmentos 


Como se puede apreciar en las figuras anteriores, el resultado de alineación difiere bastan- 


te en los segmentos emparejados. Esta variación está en función del método de compara- 


ción. Así, cuando se hizo la alineación usando heapwise, los segmentos alineados no 


correspondían en buena medida con la información de la traducción. En cambio, cuando 


se hizo el proceso con el método parsewise, el resultado mejoró, por lo que se decidió 


utilizar este método para alinear los textos. 


Cabe mencionar que, a pesar de la mejora que se observó con parsewise, la alineación 


de los segmentos aún distaba de ser totalmente paralela. Por tal motivo, se decidió hacer 


una depuración manual en la que se realinearon varios segmentos que no se correspondían. 
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Este proceso, si bien fue extenuante, en todo momento estuvo supeditado a la información 
que se obtuvo del proceso de glosado y de traducción. Ello, de alguna manera, garantiza 
que los segmentos emparejados exhiben de forma adecuada una correspondencia lingüís- 
tica y comunicativa entre los datos en amuzgo y sus traducciones al español. Para finalizar 
esta sección, en la Figura 5 se evidencia el resultado de alineación después de realizar la 


depuración y su consecuente realineación. 


Original Traducido 

Twe nkwi xue m'an kwi ti’ tyo ndye ts'a ti’, ts‘ian Hubo una vez un zorro que trabajaba en el campo, 
jndé, tyua’ ju’ sku’ ti’ k'a ti’ jndé, temprano molía su esposa [y] él iba al monte. 
Mo! twe’ nkwi xue t-ja ti’, té ki tsa ti’ ts'ian, Pero hubo un dia que fue al trabajo 

no’ ya tje ti’ tyua’ je, y cuando llegó más temprano a [su] casa 

taa ‘nna sku ti’ k'on, ya no se encontraba su esposa. 

No’ ma’ kje tats'on ti’ ng'e té non tsan nji, té ‘yon De inmediato se enteró que pasó una persona 
jon sku’ ti’, xue’ jon sku’ ti’. malvada que se robó a su esposa. 

No jo, Entonces 

‘nni ‘nna ntsa’ ti’. ¿qué haría el zorro? 

Ma të kjo ti”, Sólo se sentó 

teoti’, y lloró, 

ndo' hu xjen ‘nein tje kwi kit sian, tso’ ki tsian an’: (y) en ese momento llegó un tigre, dijo el tigre: 
ndo’ u’ tyo ndye re, ndu ma tyo’, ‘ajo je. “y tú, amigo zorro, ¿por qué lloras?” 


“Lloro porque la persona malvada llegó a mi casa y 
cuando se fue se llevó a mi esposa”. 


Figura 5. Resultado de segmentos emparejados después de la depuración y la realineación. 


Implementación y liberación del corpus 

Una vez que se concluyó el proceso total de alineación, se buscó cómo implementar el 
material generado en un recurso que permitiera la consulta de los datos de una manera 
eficiente. Para ello, se utilizó la plataforma web GECO’, la cual permite hacer una imple- 
mentación de los datos en una interfaz sencilla para el usuario. Además de ello, ofrece 
algunas herramientas para explotar el contenido de los corpus, por ejemplo, la búsqueda 
de concordancias. Para ilustrar el resultado de la implementación en esta plataforma, en la 
Figura 6 se muestra una captura de pantalla del corpus en la que se focaliza la búsqueda 
de la palabra sku en amuzgo (base semántico-léxica de “esposa”) y los contextos en los 


cuales aparece en ambas lenguas. 


http://www.geco.unam.mx/. 
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ae Concordancias para Corpus Paralelo Hola uv, 520.7 


Petición de búsqueda: 


Ayuda (O) 


Anotación Posicional: palabra Alineamiento: ES 


A 
; 
d 
| 


Vista máxima  - + 
Ventana: OVertical OHorizontal OKWIC 


ty 


IPT MS A... A 
EN 


Figura 6. Concordancias amuzgo-español de la palabra sku (esposa) en el corpus. 


Si bien en este momento la implementación del corpus aún no ha concluido, es importan- 
te destacar que el resultado de todo este conjunto de procesos es una primera versión que 
permite explotar, aunque sea de forma mínima, los datos paralelos del corpus. Es cierto 
que hay información pendiente de procesar e, incluso, de implementar (por ejemplo, en 
esta versión preliminar no se aportan estadísticas acerca de la relación types/tokens del 
mismo debido a que es poco representativo hablar en estos términos dadas las caracterís- 
ticas morfológicas del amuzgo); no obstante, es importante recalcar que el corpus cuenta 
al momento con poco más de una hora de grabaciones procesadas conforme a las etapas 
descritas previamente. En este sentido, el corpus se está constituyendo con información 
que rebasa el espectro oral de los datos, es decir, se está incorporando información muy 
valiosa en las glosas y en las traducciones, la cual, una vez liberada la versión final del 
corpus, permitirá complementar y expandir la utilidad de este para estudiar y generar 


nuevo conocimiento, así como herramientas y recursos para esta lengua. 
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Conclusiones 

En este artículo se ha descrito un trabajo para constituir un corpus paralelo amuzgo-espa- 
ñol. Se ha enfatizado la problemática que implica la creación de recursos en lenguas indí- 
genas. En específico, para lenguas cuya ausencia de datos dificulta, incluso, su descripción 
lingüística. De igual manera, se ha resaltado el trabajo realizado para la obtención de mues- 
tras reales de la lengua mediante trabajo de campo. Los datos aquí presentados correspon- 
den a una primera fase de grabaciones, las cuales han sido procesadas considerando dife- 
rentes niveles que permitan generar un corpus de calidad: transcripción, procesamiento 
de la señal acústica y transcripción fonética; asimismo, se ha trabajado con las transcrip- 
ciones para realizar el proceso de glosado y de traducción al español. Esta información, 
además de ser relevante para fines lingúísticos, puede ser provechosa para modelar siste- 
mas sustentados en las características propias de la lengua. Cabe mencionar, por otra parte, 
que se espera que en próximas fases se presenten más transcripciones de las grabaciones, 
así como que el número de entrevistas aumente en el corto y mediano plazo, logrando así 
un corpus más amplio. 

Ahora bien, los resultados que se han obtenido a la fecha permiten hacer una proyección 
de la utilidad del corpus por demás interesante. A saber, más de una hora de grabación de 
muestras reales de habla en amuzgo, es decir, a diferencia de algunos corpus que parten de 
documentos que reflejan muy poco el habla coloquial o son traducciones de documentos 
oficiales o religiosos, este corpus representará un habla lo más natural posible, tal como se 
da en la comunidad. Asimismo, este tipo de contenido permitirá, en el ámbito de las TLH, 
contar con un recurso con el cual se pueda experimentar, por ejemplo, con modelos de 
reconocimiento de voz, tomando en cuenta las características tonales de la lengua, así como 
con herramientas de traducción automática que consideren los rasgos tipológicos del 
amuzgo para segmentar las oraciones y alinearlas correctamente con los segmentos de la 
lengua de llegada. Aunado a lo anterior, es indudable que este tipo de recursos puede co- 
adyuvar a los diferentes esfuerzos que desde diversos ámbitos intentan disminuir la brecha 
tecnológica entre comunidades y que, de forma ideal, como señala Crystal (2000), pueden 
aportar para evitar la potencial desaparición (o muerte) de lenguas. 

Para concluir, se destaca una serie de líneas de trabajo que permitirán formalizar el 
trabajo realizado hasta ahora. La primera y más obvia es la consecución de nuevas muestras 
orales que permitan expandir la cantidad de datos que integrarán el corpus. Una segunda 
línea es la exploración de herramientas que permitan procesar la señal acústica de manera 
más rápida, de forma que el proceso de transcripción se vuelva, en cierto punto, más in- 


mediato. Finalmente, se contempla una línea de trabajo más social en la que el corpus, en 
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tanto herramienta que refleja una forma de conceptualizar y verbalizar el mundo, permita 
poner de manifiesto las necesidades y oportunidades sociales de las comunidades indige- 


nas, por ejemplo, en escenarios de interpretación social, médica o jurídica. 
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construcción de un corpus para la 
detección de mentiras y la 
evaluación de la credibilidad 


Pedro Eduardo Hernández Fuentes 
Universidad Nacional Autónoma de México -México 


Abstract: Meta-analytic approaches reveal that, to identify lies or evaluate the cred- 
ibility of a testimony, it is more reliable to perform a discursive or verbal material 
analysis in contrast to one based on non-verbal behavior. Hence, different research 
has been developed to make scientific contributions in this regard. These efforts 
make imperative the need to focus on the construction of a linguistic corpus that 
enables the study of the subject without ignoring the contributions made from cog- 
nitive psychology. Therefore, the methodological proposal for the construction of a 
corpus on the subject will be developed in this text. This is the result of a transdisci- 
plinary work between linguistics and psychology integrated for a total of 54 cognitive 
interviews using a double-blind procedure. 

Resumen: Los acercamientos metaanalíticos revelan que la información verbal es 


un indicador confiable para identificar mentiras o evaluar la credibilidad de un tes- 


1 Translation from Spanish language by Leon Jacob Ortega Islas. 
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timonio. De aqui que actualmente se han desarrollado diversas investigaciones para 
realizar aportaciones cientificas al respecto. Estos esfuerzos vuelven imperativa la 
necesidad de enfocarse en la construcción de un corpus lingúístico que posibilite el 
estudio del tema sin relegar las aportaciones realizadas desde la psicología (cogniti- 
va). Por ello, en este texto, se desarrollará la propuesta metodológica para la cons- 
trucción de un corpus en el tema. Ésta es el resultado de un trabajo transdisciplina- 
rio entre la linguistica y la psicología que consiste en la realización de 54 entrevistas 


cognitivas con el método de doble ciego. 


Introduction 

The study of detection of deception and credibility assessment has been of interest to many 
specialists and has been approached from different disciplines. Although scientific tools 
have been provided for its study, there is still a widespread false belief that there are key 
determinants, universal body signals or physiological indicators that are irrefutable proof 
that an individual is lying. Systematic review to analyze research results quantitatively 
(meta-analysis) reveals that most of the indicators that researchers typically examine in 
detection of deception are not related to deception at all (Vrij et al., 2010). 

Meta-analytic research also reveal that verbal information is a more reliable indicator 
to identify deception or assess the credibility of a testimony (DePaulo et al., 2003; Vrij, 
2018). Hence, research from forensic linguistics, sociolinguistics, psycholinguistics and 
mostly, cognitive psychology have currently been developed to make scientific contribu- 
tions in this regard. These efforts make the need to focus on the construction of a linguis- 
tic corpus that allows the study of detection of deception and credibility assessment im- 
perative. 

Therefore, this chapter will develop the methodological proposal that allows the crea- 
tion of a linguistic corpus to identify some characteristic features of the evaluation of 
truthfulness and lie detection in discourse. This project is the result of an inter- and trans- 
disciplinary work between linguistics and psychology. The project proposal developed at 
the Language and Cognition Laboratory of the Cognitive Sciences Research Center 
(UAEM) will be presented, emphasizing the methodology followed for the construction 
of the sample; an in-depth explanation of the method and general description for the con- 
struction of the corpus is presented: type of study, type of participants, data collection 
procedure and ethical considerations We believe that, before making evaluations on truth- 


fulness or falsehood in discourse, it would be necessary to explore theoretically and meth- 
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odologically the construction of the discursive corpus in order to begin to explore the still 
little-known map of deception and truthfulness. Beginning to establish methodological 
rigor in the construction of this type of samples is not an easy task, although it is necessary 
for the future experimental or quasi-experimental approach to a subject for which there 
are many questions and few answers. 

We also aspire to introduce to the academic context a subject that has been little ad- 
dressed in the scientific field, since there have not been enough studies that consider lin- 
guistic theory to address this phenomenon: most of the research has been conducted from 
the perspective of cognitive psychology. There is also a deficiency in the little research 
conducted on the Spanish language; although some recent proposals consider this language 
as a field of study there are still few efforts (Hwang et al., 2016; Vrij et al., 2020). 

In short, although research has emphasized the preponderance of the analysis of verbal 
content in contrast to that of nonverbal behavior, there is a gap in this regard and not 
enough value has been given to the construction of the corpus so that, in the future, the 
main linguistic indicators that differentiate between a discourse that intends to deceive 


another and one that does not can be studied. This project will contribute to fill this gap. 


Detection of Deception and Credibility Assessment 

The subject of this paper has a long tradition within the scientific and non-scientific field. 
The approaches to this subject have been made mainly from philosophy and psychology, 
although there are also contributions from anthropology, behavioral economics, sociology, 
and linguistics, to mention a few examples. Possibly, the first major contribution that these 
works have given is the definition of the terms lie and deception, which have been used as 
synonyms, and are understood as an attempt to generate in someone else, from verbal or 
nonverbal means, a belief that the communicator assumes as false (Vrij, 2008; Masip, 2004) 
(§3.2). Other contributions concern the answer to questions such as: why do we lie or what 
are the reasons for lying? (Vrij, 2001, 2008), what are the characteristics of a good liar? 
(Vrij, 2008), what skills do people have to lie? (Salekin et al., 2008), how often do we lie? 
(Feldman et al., 2002), what are the basics of lie detection? (Vrij, 2008), and why are we 
bad lie detectors? (Vrij et al., 2010). 

The phenomenon acquired greater visibility from its association with the study of non- 
verbal behavior, whose most considered channels have been facial expression, physiology, 
paralanguage and oculesics. Although the study of nonverbal behavior also includes other 
channels, namely gestures, postures, orientation and movement, proxemics, haptics, and 


appearance (López et al., 2016), these have been less regarded and studied. Within the study 
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of facial expression, one of the greatest proponents has been Paul Ekman, who has argued 
in various publications (Ekman, 2015, 2017; Ekman and Friesen, 1969, 1974; Ekman and 
O’Sullivan, 1991) that facial expressions of emotions are universal and have a biological, 
evolutionary, and adaptive origin, as Darwin (1872/2009) stated. Although Darwin's 
(1872/2009) and, therefore, Ekman’s proposals were initially questioned, his findings have 
now been supported by more than a hundred research studies and different specialists; for 
example, Reissland et al. (2011) conducted a study on facial development based on 4-D 
ultrasound visualization of fetal facial movements. 

These investigations have led to state that one of the most reliable ways to detect decep- 
tion is the study of microexpressions, which are rapid facial movements lasting less than 
one-fifth of a second, which are important because they convey important information 
about what a subject is truly feeling or experiencing emotionally and is trying to hide 
(Ekman, 2017). Based on this, it has been suggested the idea that observable microexpres- 
sions on the face are more reliable indications of deception than other channels. This, 
moreover, is supported by the Filtering Hypothesis, which argues that, when a person lies, 
he or she experiences emotions that he or she tries to hide because they could reveal the 
truth; however, these are leaked through the subject's face for a brief moment (Ekman and 
Friesen, 1969). 

However, the analysis of microexpressions as indicators of deception is still under dis- 
cussion, since deception can generate positive or negative emotions, or even these may not 
be present and, therefore, the analysis of them is not the best way to determine when a 
person is hiding the truth (Burgoon, 2018; Vrij et al., 2010). In addition, it remains to delve 
into the relevance or not of other indicators of nonverbal behavior that have been less 
studied, such as those that DePaulo et al. (2003) registered: the movements of arms, hands, 
fingers, fingers, legs and feet and the use of illustrators. Therefore, Vrij et al. (2010) reviewed 
which is the most successful way for detection of deception when a subject tries to detect 
it without the help of technology: nonverbal behavioral analysis or discursive analysis, 
concluding that a promising way was discursive analysis. 

Following the above, Vrij (2018) presented a literature review on the keys in detection 
of deception and pointed out that the projects that study the differences at the discursive 
level are the ones that are currently predominant, as there is scientific evidence on their 
level of reliability. This is also confirmed by the meta-analytical study of DePaulo et al. 
(2003), in which, from the review of the importance of 158 behaviors (verbal and nonver- 
bal), it was concluded that the analysis of the verbal in contrast to the nonverbal is more 


relevant. So, is detection of deception a problem of linguistics? 
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2.1 Is detection of deception a problem of linguistics? 

The fact that the subject has been widely approached from psychology does not imply that 
it is not a problem of linguistics. From this area, some research has been carried out, 
although it is not very abundant, since the study of detection of deception as a linguistic 
phenomenon has been relegated; hence there is a need to offer more specific contributions 
from this discipline that give a linguistic description of the phenomenon. It is likely that 
the limited existence of linguistic studies of lying is the result of the methodological difh- 
culties involved in the design of experiments and the analysis of the information obtained 
(Infante, 2015). The still low number of contributions made from this area regarding the 
subject and some peripheral subjects could be listed more and more frequently; however, 
increasing interest in the construction of a corpus other than English - the language in 
which the experiments and samples have been mostly designed - may allow us to generate 
a more assertive approach to the matter. 

Among the linguistic contributions, those developed from forensic linguistics stand 
out, for example, Picornell (2013) has studied the detection of deception in written witness 
statements and has proposed ways to look for signs of deception from the narrative char- 
acteristics of the witnesses. The author has criticized that one of the shortcomings that 
exist in several of the research studies is that they are conducted with university students 
because they are the closest participants, although they do not reflect the reality. For this 
reason, in the present study, the two variables to be controlled are not related to education- 
al level, but to age and sex (93.3). Also noteworthy are the contributions of Fitzpatrick 
(2009), who attempted to test the accuracy of some linguistic cues linked to deception. 

From a more technological perspective, a number of tools have been developed, for 
example, the Linguistic Inquiry and Word Count (Pennebaker ef al., 2001), used to auto- 
mate in a simple way the lexical analysis of deceptive text; the Voice Stress Analyzer (NITV 
Federal Services, 2020), whose hypothesis is that vocal stress indicators reveal deception; 
and the CSC Deceptive Speech (2013), a corpus developed to distinguish deceptive speech 
from non-deceptive speech based on machine learning techniques on features extracted 
from the corpus. These endeavors, which aim to identify and quantify linguistic indicators 
of deception, have generated several computational programs from different research are- 
as and laboratories in the last fifteen years with the direct or indirect purpose of achieving 
a better identification of lies: Agento9 Analyzer, General Architecture for Text Engineering 
(GATE), iSkim or CueCal, Coh-Metrix, Automated Deception Analysis Machine (ADAM) 
(Hauch et al., 2015). 
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Methodological proposal 

The creation of this corpus responds to the interest and the need to create resources that 
generate research related to truthfulness and deception in discourse, since, as stated in the 
introduction, most of the current research indicates that the analysis of verbal content can 
provide more clues in the detection of deception and the evaluation of credibility. Thus, 
beginning to defragment and study how Spanish speakers lie in quasi-experimental con- 
ditions is a timely, though limited, approach for resource generation and future research 
purposes in this field. 

The idea that there is no single totally reliable signal for deception detection is the most 
useful one because of the very difficulties of lie detection. In this sense, the set of several 
verbal and non-verbal indicators is the most accurate way to deal with this phenomenon; 
although the focus of this work is, in principle, linguistic, by obtaining recorded audiovis- 
ual material ($3.3), other types of approaches will be possible in the future. It should also 
be noted that, as mentioned, most of the research reviewed seeks to find patterns that help 
to determine whether there are indicators of deception, leaving aside the evaluation of 
truthfulness in discourse. This is also intended to be controlled in the present research. 

Thus, the creation of this sample seeks to create a database with a general criterion 
specific to the Laboratory of Language and Cognition that: 1) favors projects related to the 
topic; 2) speeds up the necessary methodological processes of a research related to the 
topic; 3) allows the approach of inter- and transdisciplinary research from the same mate- 
rial whose methodological decisions have a justification; 4) allows finding characteristic 
patterns of truthful and fallacious discourse of a specific society and with a particular 
topic. In principle, the scope of the set of texts is limited to the collaborators of the Labo- 
ratory, i.e., only members will be able to consult it, since there is no platform on which it 
can be disseminated. Nevertheless, in the future, a greater transcendence is intended. 

The first phase of this research involved the design of the interview and the selection 
of the participants ($3.3 and $3.4); the second phase involved sending more specific infor- 
mation through the informed consent form (§3.3 and Appendix 2. CI); the third phase 
involved conducting the cognitive interview divided into two sections (Appendix 3. GE): 
implementation of the double-blind method and conducting the interview; finally, the 
fourth phase involved the transcription and basic labeling that will allow for future analy- 
ses (Appendix 4. CT). 

Upon completion, fifty-four narratives of experience were obtained from twenty-seven 
people who had some experience of the September 19, 2017, earthquake that occurred in 


Mexico; each participant provided one truthful narrative (twenty-seven total) and one 
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fallacious narrative (twenty-seven total). The testimonies were divided into three different 


groups (Table 2) to be able to perform comparative analyses. 


Cognitive interviewing as a method for eliciting deceptive discourse 

The lack of evidence that proves the usefulness of non-verbal parameters in lie detection 
and credibility assessment has generated the development of research that bets on the use 
of cognitive strategies. This has led to remarkable differences between those who express 
(verbally) a truth or a lie (Vrij, 2018) and, therefore, has prompted the design of experi- 
ments that assess these distinctions: telling a story backwards rather than in chronological 
order (Vrij et al., 2012; Vrij et al., 2008), looking at the direction of gaze (Vrij et al., 2010), 
asking unexpected questions of the participant (Lancaster et al., 2013), asking the subject 
to perform a secondary task (drawing, for example) during the interview (Lancaster et al., 
2013), and providing a greater number of possible details in a story (Leal et al., 2015). 

Throughout all of these approaches, the role of the interviewer is critical. For example, 
one could highlight the difference between the cognitive interview model and the Reid tech- 
nique model of interviewing and interrogation, which is still used despite its proven ineffec- 
tiveness. So, it is important for the interviewer to take an active role and ask questions that 
generate distinctive reactions between the person who is lying and the person who is telling 
the truth (Masip and Herrero, 2015). This should be supported by protocols based on solid 
theoretical models, cognitively based, and supported by research, such as the Activation-De- 
cision-Construction Model (ADCM) proposed by Walczyk and those previously discussed. 

It is important to consider the limitations noted about the cognitive models currently 
developed, since specifying the reasons why lying is cognitively more complex is not the same 
as elaborating or contrasting models that specify the cognitive processes responsible for the 
distinctions between lying and telling the truth that clarify answers to questions such as what 
cognitive processes are activated when a person lies? (Blandón-Gitlin et al., 2017). 

As part of the development of research studies that focus on the use of cognitive strat- 
egies, we can find the cognitive interview, designed by Geiselman et al. (1984) and Fisher 
and Geiselman (1992) with the purpose of obtaining quality information from the inter- 
viewee; in addition to developing an alternative interview method to the existing ones, 
focused on the mental processes of the witnesses instead of the events that occurred (Fish- 
er and Geiselman, 2019). In its first version, channeled toward criminal investigation, the 
proposal contained four basic techniques: 1) context reinstatement, 2) telling everything, 
3) change of perspective, and 4) change of order. In the second version of the interview 


(Fisher and Geiselman, 1992), called the enhanced cognitive interview, social and commu- 
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nicative factors were included, which were intended to improve the social interaction be- 


tween the interviewer and the interviewee, improve the interviewees memory and other 


cognitive processes, and achieve effective communication: 


Table 1. Cognitive interview techniques (Fisher & Geiselman, 2019). 


No. Technique Description Improved 
psychological 
process 
1 Rapport It aims to create a good emotional climate and develop Social interaction 
a good relationship between the interviewee and the 
interviewer. 
2 Active partici- The interviewee actively generates information throug- Social interaction 
pation of the hout the interview: he/she does not only answer the 
interviewee interviewer's questions. 
3 Report every- The interviewee includes all the memories that come to Memory and com- 
thing mind, as he/she is asked to report all the facts, whether munication 
he/she considers them important or not. 
4 Reset the context The interview aims to re-establish the context of the Memory 
original experience. 
5 Describe in detail Seeks a detailed account of events from the interviewee. Communication 
It can sometimes be initiated from a model statement 
(Leal, Vrij, Warmelink, Vernham, 8 Fisher, 2015). 
6 Close your eyes The interviewee is asked to close his/her eyes. This Cognition 
instruction should be done after the relationship between 
the interviewee and the interviewer has been developed. 
7 No interruptions The interviewee should not be interrupted during the Social interaction 
interview. and cognition 
8 Do not guess It is made clear to the respondent that it is okay to say “I Cognition 
don't know” and not to guess the answer. 
9 Open questions It calls for mainly open-ended questions; closed-ended Social interaction 
questions will be asked only as a follow-up. and cognition 
10 Multiple recovery An attempt is made to encourage the interviewee to Memory 
search through his or her memory more than once. 
11 Varied recovery It is intended to encourage the participant to search Memory 
through his or her memory in different ways. 
12 Questions com- It calls for questions that are compatible with the respon- Memory 
patible with the dent's current accessibility. 
interviewee 
13 Avoid suggesting Avoid asking questions that suggest a specific answer. Memory 
questions 
14 Compatible It allows respondents to produce their knowledge in the Communication 


output code 


same form in which it is stored (often non-verbal). 
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Over the years, modifications have been made to the cognitive interview and a consensus 
has been reached on its effectiveness in contrast to other types of interviews such as struc- 
tured interviews (Köhnken et al., 1999). It has also been successful in increasing the amount 
of correct information recalled by the interviewee (Fisher et al., 2011), it has proven to be 
effective in different contexts and in both criminal and non-criminal investigations (Fish- 
er and Geiselman, 2019). Likewise, it has been widely used in the field of lie detection. 


Therefore, in this paper, we used this type of interview to obtain the required information. 


. Type of study 


The type of study of this research is non-probabilistic quasi-experimental in which a corpus 
was obtained by convenience from the manipulation of two variables of interest: age and sex. 
For this, in each interview, a pre-post evaluation was conducted from which the baseline of 
the participants will be obtained according to the evaluation between the narration of the 
true story (experience of the earthquake of September 19, 2017, in Mexico) and the false 
version of the same story; both were conducted randomly, that is, in some cases it was decid- 
ed that the interviewee first lied and then told the truth and vice versa to observe whether 
this has an effect on the discourse. It should be added that this work does not aim to evaluate 
the memory or recollection of the participants, but rather their intention to lie or tell the 
truth; this justifies the decision to use an event that occurred well in advance (see definition 
of lying, $2). Likewise, the participants were intended to be their own control. 

The scientific method used to prevent the results of future research from being influ- 
enced by observer bias was the so-called double-blind method: in the collection of the 
corpus, the participants were unaware of the research topic (Appendix 1. D) while the in- 
terviewer and analyst are still unaware of the type of discourse they formulated first, true 


or false, as the information was determined by an instructor outside the interviewer. 


Participants and interview 

A non-probabilistic convenience sampling was carried out. To this end, 27 volunteers 
(Table 2) were invited to participate using a poster published on social networks, with the 
following requirements or inclusion criteria: internet access, time availability of approxi- 
mately one hour, being of one of the requested ages, agreeing to sign an informed consent 
form (Appendix 2. CI) with the request to videotape their participation for strictly aca- 
demic purposes, to have a camera and audio in the device to be connected and to have the 
video call program to conduct the meeting via this means. The exclusion criteria, in addi- 


tion to non-compliance with any of the above, were neurological problems or language 
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pathology. Since these were self-declarations, the reliability of this information could not 
be controlled. Based on these requirements, men and women were selected from each of 
the three groups shown in Table 2. It should be noted that the initial intention was to obtain 
30 volunteers, but only the number indicated was achieved and it was necessary to exclude 
some of the participants. In the future, we intend to complete the number of participants 


in order to have a fully gender-balanced sample. 


Table 2. Participants. 


Group Age Sex No. of participants 
1 20-25 5 women and 5 men 10 
2 35-40 5 women and 5 men 10 
3 50-55 5 women and 2 men 7 


The project manager determined the eligibility of the participants according to the inclu- 
sion and exclusion criteria indicated, based on the answers provided by the volunteer. 
None of the three groups included vulnerable participants. 

A virtual Zoom session was organized for each of the volunteers to conduct the inter- 
view. The first face-to-face (virtual) approach was by a person other than the interviewer, 
known as the “instructor”, to give the participant the instructions developed in the inter- 
view guide, the instructor’s guide (Appendix 3. GE). Once his/her participation was com- 
pleted, the instructor informed the interviewer that he/she had finished so that he/she 
could enter the session via Zoom and continue with the meeting as detailed in the guide. 

The two participant narrations (one true and one false) were both recorded on two 
different recordings. Each was labeled as follows: CMCooo1vA. This label is comprised of 
basic information to systematize the use of the material, consisting of: 1) the letters CMC 
refers to the name of the corpus “Corpus mentiras y credibilidad”; 2) the sequence of four 
numbers corresponds to the number of the video and changes according to the number of 
testimony; 3) the letter v corresponds to the clarification that it is a video; 4) the capital 
letter corresponds to the letter assigned to each one of the participants. 

Once the material was obtained, a Word transcription was made with the correspond- 
ing criteria (Appendix 4. CT). These files were labeled CMCoooitA, which is the same as 
the previous label, but with a change in the lowercase letter, which implies that it is a tran- 
scription. The transcription process involved two participants: the transcriber and the re- 


viewer. 
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Data collection procedure 

The participation of the volunteers was videotaped with the Zoom program. The instructor 
and the interviewer used the interview guide to help them (Appendix 3. GE). The cognitive 
interview proposals (§3.1) were considered in the elaboration of these materials; they were 
also reviewed and commented on by three experts. 

As for the transcription criteria (Appendix 4. CT), great attention was paid to ensure 
that the use of marks was the minimum necessary to achieve the purposes of this project, 
while remaining rigorous. Thus, most of the elements linked to phonetic-phonological 
characteristics were omitted. Likewise, the participants were given the “Informed Consent” 


(Appendix 2. CI). All the forms are attached as annexes. 


Ethical considerations 

Regarding ethical considerations, this research had minimal risk for the participants, since 
only documentary research techniques were used (cognitive interview) in which sensitive 
aspects of behavior were not addressed. The research protocol was sent to the Centro de 
Investigación Transdisciplinar en Psicologia, Universidad Autónoma de Morelos, on Sep- 


tember 4, 2020, and was approved on November 30, 2020. 


Current track and future projections 

As mentioned at the beginning, this work is mainly of a methodological nature, as itis con- 
sidered that, since this is a subject that has been little addressed in linguistic and corpus 
studies, the first approach to follow is to make a proposal that allows us to obtain the truthful 
and fallacious discourse. In spite of this, some of the results obtained have to do with the type 
of words present in the total narration, the number of total words, the lexical variety, the 


approximate duration of the narration and the number of words per minute (Tables 3 and 4). 


Table 3. Group 1. Women aged 20 to 25 years. 


Type Token Lexical Approximate Words per 
variety duration minute 
CMC0004-B 448 1826 4.07 11 166 
CMC0007-D 303 1032 3.40 9 114.66 
CMC0009-E 393 1452 3.69 8 181.50 
CMC0014-G AS 3803 S3 22 172.86 
CMC0017-I 479 1947 4.06 11 177 
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Table 4. Group 2. Women aged 20 to 25 years. 


Type Token Lexical Approximate du- Words per 
variety ration minute 
CMC0003-B 385 1526 3.96 10 152.60 
CMC0008-D 533 25115 4.71 19 132.36 
CMC0010-E 387 1255 3.24 7 179.28 
CMC0013-G 525 2393 4.55 14 170.92 
CMC0018-I 466 2072 4,44 10 207.20 


The above tables show that we started from a general approach to proceed to a particular 
one in which potential linguistic indexes are codified to establish their quality. Some of 
them are part of the psychological, criminological and, to a lesser extent, linguistic litera- 
ture that have been constantly mentioned and are currently considered as warning flags: 
full pauses, negation, adverbs, verb tenses, pronouns, number of syllables, number of sen- 
tences, number of big words, number of syllables per word, number of short sentences, 
number of long sentences, average number of words per sentence, conjunctions, simple 
sentences and adjectives (Burgoon et al., 2003; Fitzpatrick and Bachenko, 2009; Picornell, 
2013; Villar and Castillo, 2016). Currently, the coding of filled pauses, pronouns, adverbs, 
reported memory, in addition to those previously mentioned, is part of the tasks of the 


coordinator of this research and the first results are expected to be available in March 2022. 


Conclusions and discussion 

Although research has emphasized the preponderance of the analysis of verbal content in 
contrast to that of nonverbal behavior, there is a lack of studies that delve into the consid- 
erations of linguistic theory and that focus, as a first step, on the construction of a corpus 
that allows the study of the main linguistic indicators that distinguish between a discourse 
that intends to deceive and one that does not. 

Itis necessary to consider that detection of deception is complex, so it could be easy to 
fall into the Othello error, a concept coined by Ekman (2015) to refer to the errors in which 
the evaluator may fall if he/she does not consider that a person who is telling the truth may 
“appear” to be a liar when only one level of analysis is considered. In this sense, it is easy 
for biases such as gaze direction or the different comfortable certainties mentioned in this 
work to induce error. Hence, this paper seeks to reduce this type of errors through a prom- 
ising approach, which is a verbal and cognitive one in which the analyst's bias (with the 
double-blind method) is reduced. 
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Regarding detection of deception and truthfulness assessment, it is clear that there are 
currently different research studies that question the analysis of microexpressions or para- 
linguistics as viable channels of analysis. Although this paper does not go into this issue in 
depth, it is considered that the study of these channels can always provide valuable infor- 
mation if they are considered as part of a whole. This implies aiming at a constellation of 
evidence in which the analysis of linguistic behavior is as important as the analysis of 
non-linguistic behavior: an isolated analysis of non-verbal behavior would be just as dan- 
gerous as concentrating exclusively on a strictly linguistic analysis. For methodological 
reasons, however, in this work greater weight has been given to the construction of the 
corpus from a more linguistic angle, without disregarding the other channels. Hence the 
audiovisual recording of the participants who took part in this project. 

In sum, this work makes different contributions. First, it establishes methodological 
rigor in the construction of a corpus for the identification of linguistic strategies linked to 
lies and truthfulness. This implied the careful selection of participants, the elaboration of 
instruments such as the interview guide with a solid theoretical basis, and the submission 
of the project itself to an ethics committee. 

Moreover, by obtaining two types of discourse (one truthful and one false), it is intend- 
ed that soon it will be possible to study both differences in the same subject, that is, to know 
the linguistic baseline of the participant when he/she tells the truth in order to recognize 
the relevant and significant differences when the same subject lies. It should be considered 
that, in the future, specialists in “detection of deception” should focus on assessing truth- 
fulness in discourse rather than on identifying lies. This project thus emphasizes both 
fallacious and truthful discourse. 

Finally, an advantage of the project is the transdisciplinary ethos that it aims to have so 
that, over time, more collaborative work with different disciplines can be carried out to 


understand a phenomenon that is present in our daily interactions. 


Appendix 


Below is a summary of each of the appendices attached to the research in Spanish. 


D. Diffusion 

This appendix corresponds to the poster used for the search of volunteers. It indicates the 
requirements, includes contact information and general information about the research. 
The poster was circulated by the Language and Cognition Laboratory of the Center for 
Research in Cognitive Sciences (UAEM). 
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Cl. Informed Consent Form 

This appendix contains the informed consent form. This appendix includes the consent of 
the volunteers to participate in the collection of interviews as part of the Language and 
Cognition Laboratory project. It specifies the risks, type of research technique, rights, 


benefits, and general structure of the interview. 


GE. Interview Guide 

This appendix is divided into two sections: Instructor’s Guide and Interviewer's Guide. In 
the first section, the general instructions to be given by the instructor to the interviewer 
are detailed, that is, to welcome him/her and the instruction to lie or tell the truth in each 
of the narratives according to the order decided by the instructor himself/herself. In the 
second section, more specific information about the project is mentioned, the instruction 
given by the instructor is reinforced without discovering the double-blind, a model 
description of the type of narrative expected is made, the participants acceptance is asked 
again, and the interviewees narrative begins with the completion of the question in which 


the narrative of the experience of the earthquake of September 19, 2017, is requested. 


CT. Transcription Conventions 
This section details the transcription conventions used. The criteria used in terms of spell- 
ing and punctuation, phonic and lexical labeling, labeling of discursive dynamics, and 


format criteria are mentioned. 
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CHAPTER IX 


Turkisch fur Anfanger: propuesta de 
un corpus del aleman coloquial 
actual, ejemplificado a partir de las 
formulas rutinarias de saludo 


Türkisch für Anfänger: proposal of 
a corpus of modern colloquial 
German, exemplified from routine 
phrases for greetings 


Karen Lorena Baquero Castro 
Universidad de Salamanca - España; Universidad Ean - Colombia 


Resumen: En el contexto de la enseñanza del alemán como lengua extranjera, apren- 
dices y docentes se enfrentan al vacío de una didáctica que optimice el proceso y los 
resultados de aprendizaje de unidades fraseológicas. En un sentido amplio de la 
fraseologia, se encuentran las fórmulas rutinarias, expresiones cuya polifuncionali- 
dad y complejidad pragmática evidencian la necesidad de crear materiales auténti- 
cos basados en el análisis de corpus lingüísticos que apelen al contexto. Para ello, 
presento en este artículo la metodología de creación de una base de datos compues- 
ta por 12.911 líneas de diálogo de la serie alemana Türkisch für Anfänger, el análisis de 
un subgrupo de fórmulas de saludo presentes en la misma y la correspondiente 
implicación didáctica para el aprendizaje de dichas unidades basadas en el alemán 


actual cotidiano. 


Serie de televisión alemana de comedia dramática, producida en los afios 2006 a 2008. 
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Abstract: In the context of teaching German as a foreign language, learners and 
teachers encounter a lack of didactics that optimizes the process and results of a 
learner in phraseological units. In a broad sense of the phraseology, there are con- 
versational routines, expressions whose polyfunctional nature and complex prag- 
matics show the need to create authentic materials based on the analysis of a lin- 
guistic corpus that applies to the context. The present article shows the 
methodology used to create a database made up of 12,911 lines of dialogue from the 
German television series Türkisch für Anfänger’. In addition, it shows an analysis of a 
subgroup of greeting routines available in the corresponding didactic proposal to 


learn such phrasemes based on quotidian German language used today. 


1. Introducción 

Igor Sosa Mayor (2006, p.62) expone que los fraseólogos incluyeron el estudio de las fór- 
mulas rutinarias cuando investigaban y establecían las características de otras unidades 
como los fraseolexemas. A pesar de haber sido incorporadas por Burger desde 1973 en la 
investigación fraseológica del alemán, bajo la denominación de “pragmatische Phraseme”», 
los investigadores aún no han llegado a un consenso sobre las características que las defi- 
nen. Paradójicamente, sí existe claridad suficiente para la consideración de sus múltiples 
funciones en la comunicación oral y escrita: estructuración de discursos, adecuada inte- 
racción situacional, descarga de tiempo y estrés, así como el fortalecimiento del contacto 
social a través de la precisión lingüística. 

Dada su relevancia, en esta investigación* consideramos necesario crear una fuente 
lingúística auténtica? del alemán actual que permita entre otras, indagar sobre sus diferen- 
tes usos y a partir de ello desarrollar estrategias didácticas para su aprendizaje. Partimos 
de la creación de un corpus compuesto por las líneas de diálogo de la serie de televisión 


alemana Tiirkisch fiir Anfánger. Nos proponemos revisar qué tipo de datos recopilados 


2 German television comedy-drama series, aired between 2006 and 2008. 

3 A lo largo de la literatura se encuentran diferentes términos para referirse a dichas unidades: Pragmatische 
Idiome (Burger, 1973), Routineformeln (Coulmas, 1981; Burger, 1998; Stein, 1985; Gláser, 1986; Lúger, 1999; 
Sosa Mayor, 2006), Kommunikative Formeln (Fleischer, 1982), kommunikative Phraseologismen (Burger, 
1998), Kommunikative Routineformeln (Hyvárinen, 2003). 

4 Esta investigación hace parte del proyecto doctoral que desarrollo en la Universidad de Salamanca en el 
área de lenguas modernas y que tiene como enfoque la creación de un corpus lingüístico que permita la 
sistematización de datos sobre las fórmulas rutinarias del alemán coloquial actual. 

5 Nos basamos en la propuesta de Lúger (2009, p.15), para quien la autenticidad es aquello que es “real”, 
“verdadero”, “fiel al original” o “no artificial”. 
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pueden ser usados para que los aprendices desarrollen su sentido lingüístico‘ y sean capa- 
ces de comunicarse usando fórmulas actuales y propias de los contextos coloquiales del 


alemán. 


Propiedades de las fórmulas rutinarias 

Estas unidades, “[...] deben poseer las características comunes a todas ellas, la fijación y 
en ocasiones la idiomaticidad, [...] pero además pueden presentar algún tipo de indepen- 
dencia como enunciados fraseológicos que son” (Alvarado, 2008, p.93). Dentro de estas 
propiedades se distingue la importancia de la fijación formal y psicolingúística, “referida 
a la convencionalización en la comunidad lingitistica, es decir, a la estabilidad en su pro- 
ducción y a su frecuencia de uso” (Alvarado, 2008, p.93). Como advierte la autora, dichos 
rasgos pueden ocurrir de manera gradual. 

En las fórmulas rutinarias, la independencia es una característica primordial. Alvarado 
(2008, p.116) distingue: la independencia entonativa, distribucional, semántica, sintáctica 
y textual. En la primera de estas, la entonativa, se tiene en cuenta que estas unidades “son 
actos de habla que presentan fuerza ilocutiva exclamativa de sorpresa, admiración, recha- 
zo, susto, etc., por lo que tienen un esquema entonativo propio [...] (Alvarado, 2008, p.124). 
La independencia distribucional, como describe la autora, se refiere a la libertad que tiene 
el hablante de usar dichas unidades cuantas veces lo requiera (Alvarado, 2008, p.125), “por 
lo tanto está estrechamente ligada con el concepto de dependencia situacional, ya que un 
gran número de fórmulas depende siempre de la situación que se esté produciendo” (Al- 
varado, 2008, p.126). La independencia semántica tiene que ver con que “el valor de la 
fórmula está fijado por el contexto habitual en el que se produce y significa por sí misma 
y no necesita de otros elementos” (Alvarado, 2008, p.127). La última de estas, la indepen- 
dencia textual, es aquella que el corpus permite ver con mayor claridad, “si la fórmula se 
puede dar tantas veces en el discurso como se quiera es porque no depende del contexto 
lingúístico, sino del situacional” (Alvarado, 2008, p.126). 

Según Winzer-Kiontke (2016, p.34), las fórmulas rutinarias se definen a partir de su fre- 
cuencia, coherencia fonológica, uso y grado de independencia. Si bien se puede hablar de un 
relativo consenso alrededor de la mayoría de las propiedades definitorias de las fórmulas 
rutinarias, hay una, sobre la cual se generan discrepancias, a saber, la polilexicalidad. Alva- 


rado (2008) no la postula como una característica necesaria. Para Winzer-Kiontke (2016, 


El sentido lingúístico es definido en el diccionario Merriam-Webster como un sentido intuitivo de lo que es 
apropiado linguísticamente. 
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p.22), estas unidades tienden a ser polilexicales, pero se incluyen las que no lo son, es decir, 
aquellas monolexicales. Por monolexicales, comprendemos aquellas formulas cuyo limite 
minimo es la palabra. Como propone Sosa (2006, p.27), es justamente este aspecto el mas 
problemático en la clasificación de las fórmulas rutinarias ya que si se aplica de manera ca- 
tegórica el criterio de polilexicalidad, se deben excluir unidades del campo de las fórmulas 
rutinarias que, según el autor y nuestro estudio, deben ser tenidas en cuenta. Añade Sosa 
(2006, p.33) que incluso se tienen en cuenta aquellas fórmulas que por su frecuencia de uso 
dejan de ser polilexicales y se convierten en molexicales debido a procesos lingúísticos de 
elisión. Así, la monolexicalidad debe encontrarse dentro de las propiedades definitorias de 
dichas unidades. Para ilustrar la relevancia de fórmulas rutinarias monolexicales, dentro del 
corpus de nuestra investigación se ha encontrado un número total de 238 fórmulas de saludo, 


en las que se incluyen fórmulas como hallo!, Tag!, Morgen, o hey. 


Clasificación de fórmulas rutinarias 

En la literatura de la fraseología, se encuentran diferentes propuestas clasificatorias. Win- 
zer-Kiontke (2016) retoma en su sistema de clasificación los aportes de Coulmas (1981), 
Pilz (1981), Gláser (1986), Zenderowska-Korpus (2004) y Sosa Mayor (2006). Tipos de 
fórmulas que aparecen en cada una de estas publicaciones como las de saludo, despedida, 
pésame, agradecimiento, disculpas y deseos, se tienen en cuenta de manera directa en su 
clasificación. Según esta propuesta, la autora recopila los 33 tipos de fórmulas en sentido 


estricto que se muestran en la siguiente tabla (Winzer-Kiontke, 2016, p.84): 


Tabla 1. Categorías de fórmulas rutinarias según Winzer-Kiontke (2016). 


Base de datos-categorías 


1. Fórmula de rechazo 12. Fórmula de restricción 23. Fórmula de comentario 
2. Fórmula de despedida 13. Fórmula emotiva 24. Fórmula de contacto 
3. Fórmula de ocasión 14. Fórmula de disculpas 25. Fórmula de estornudo 
4. Fórmula de tratamiento 5. Fórmula de información 26. Fórmula de reprimenda y 
5. Fórmula de exhortación 6. Fórmula de advertencia grosería 
6. Fórmula de compasión 7. Fórmula de aliento 27. Fórmula de lenguaje escrito 
7. Fórmula de bienvenida 8. Fórmula de asombro 28. Fórmula de sorpresa 
8. Fórmula de pésame 9. Fórmula de respuesta 29. Fórmula de presentación 
9. Fórmula de apaciguamiento 20. Fórmula de alimento y 30. Fórmula de advertencia (En 
10. Fórmula de aseveración bebida sentido amplio: Fórmula de 
11. Fórmula de agradecimiento 21. Fórmula de saludo prohibición) 
22. Fórmula institucional 31. Fórmula de recibimiento 
32. Fórmula de deseo 
33. Fórmula de consentimiento 
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Al igual que esta propuesta, se han planteado un sinnúmero de clasificaciones, que, en su 
mayoría, como la de Winzer-Kiontke (2016, p.84), apelan a la teoría de los actos de habla. 
Dentro de las más completas también se incluye la de Alvarado (2008, p.268), consideran- 
do que es otra clasificación precisa para este grupo de unidades fraseológicas, aunque 
pensada para las fórmulas rutinarias del español, y que permite de entrada incluir las 
fórmulas rutinarias discursivas. 

En la propuesta de Alvarado, el hablante es el punto de partida “que codifica sus emo- 
ciones en la fórmula rutinaria” (2008, p.268). Tiene en cuenta dos modalidades: “la moda- 
lidad lógica, que se relaciona con la verdad de lo que se dice, y la modalidad subjetiva, que 
muestra la valoración del hablante” (Alvarado, 2008, p.268). En el grupo de fórmulas ruti- 
narias lógicas se distinguen las epistémicas, que “se vinculan con el ámbito de la posibilidad 
de que un enunciado sea cierto” (Alvarado, 2008, p.269) y las deónticas, que “expresan la 
obligatoriedad de que se cumpla lo que el hablante dice [...]” (Alvarado, 2008, p.279), allí 
se incluyen las fórmulas declarativas, interrogativas, imperativas y exclamativas. En cuan- 
to a las fórmulas rutinarias subjetivas, la autora plantea dos categorías, las afectivas, que 
expresan la emoción del hablante y las evaluativas, “que codifican la modalidad subjetiva, 
puesto que manifiestan la actitud del hablante frente al dictum, y evalúan dicho enunciado 
en términos valorativos” (Alvarado, 2008, p.315). En un último grupo, se encuentran las 
fórmulas rutinarias discursivas, cuya función consiste en darle orden al discurso a partir 
de tres distinciones: apertura, transición y cierre (Alvarado, 2008, p.318). 

Consideramos la propuesta de clasificación de Winzer-Kiontke (2016) como la más 
adecuada para los fines propuestos en nuestro trabajo. Teniendo en cuenta el carácter del 
corpus, nos inclinamos por una clasificación pragmática basada en el uso de las unidades 
fraseológicas según su contexto o situación. Consideramos que el aporte de este corpus 
consiste justamente en la explotación de las unidades alli identificadas y clasificadas. Dicha 
clasificación permite que las reflexiones didácticas que de allí surjan sean más operativas 


y de este modo más sencillas de comprender para un aprendiz de la lengua. 


El corpus 

En el campo de la lingüística moderna, el uso de corpus se ha dado de manera extendida. 
De acuerdo con Villayandre, fue el uso de los computadores para “reunir, organizar, y 
procesar esos datos el que ha dotado de modernidad a esta tarea, hasta el punto de propi- 


ciar el despegue de una forma de hacer lingüística, la llamada lingüística de corpus’ (2008, 


p-330). 
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El concepto de corpus previo al desarrollo de los computadores se definia a partir de la re- 
copilación de textos con el fin de analizar fenómenos de lenguas muertas y tenia como objeto 
indagar sobre la adquisición del lenguaje a temprana edad, precisar reglas de ortografía, hacer 
listas de vocabulario, comparar lenguas y crear gramáticas (Villayandre 2008, p.330). Aunque 
durante el siglo XIX se vive en esta disciplina un acelerado desarrollo, es solo a partir del siglo 
XX cuando esta se convierte en metodología con la lingüística americana estructuralista. 

Con la postura de Chomsky que cuestionaba la metodología del empirismo, la disci- 
plina pierde auge y desarrollo. La postura del autor se centraba esencialmente en tres pun- 
tos: carencia del uso de la intuición a la que debe recurrir el lingúista, el carácter incom- 
pleto de los datos que contienen los corpus y la metodología dispendiosa que implica el 
análisis de datos (Villayandre, 2008, p.333). Sin embargo, dichas críticas se superaron a 
partir de argumentos sobre la gramaticalidad de los elementos del corpus, los datos cuan- 
titativos y su representatividad y el uso de computadores. Así, el mayor desarrollo de la 
lingúística de corpus se aprecia desde la década de 1980 (Villayandre, 2008, p.337). 

Algunos de los corpus más representativos creados en dicha década son: el “Bank of 
English’ el CREA (Corpus de Referencia del Español Actual) y CORDE (Corpus Diacrónico 
del español). En dichos corpus se debe cumplir con características primordiales como tener 
un formato digitalizado, criterios que permitan la selección de información bien sea lingitis- 
tica o extralingúística, representatividad estadística y tamaño por lo general finito (Villayan- 
dre, 2008, p.341). Nuestro corpus, al conformarse a partir de las líneas de dialogo de la serie 
alemana mencionada previamente, se define como corpus del alemán oral actual. En la crea- 
ción de este, se llevó a cabo el proceso de transcripción de 52 capítulos que constituyen las 
3 temporadas de la serie”. Para el alemán existe un gran número de corpus’, sin embargo, 
estos no están recopilados propiamente para un uso didáctico, como lo expone Wallner 
(2014). Así, el tamaño de nuestro corpus permite un manejo adecuado de información enri- 


quecida para el desarrollo de materiales didácticos de aprendices del alemán coloquial actual. 


7 El proceso de transcripción utilizado se realizó manualmente con el fin de garantizar la precisión de las tran- 
scripciones, usando como fuente de apoyo los subtítulos descriptivos, junto con el uso de programas como 
oTranscribe y Amberscript. Las líneas de dialogo fueron revisadas durante y después de la transcripción. El 
corpus tuvo un proceso de revisión extenso a cargo de un ingeniero de bases de datos y una doctoranda 
especializada en la enseñanza del alemán con nivel de alemán C1 y C2, respectivamente. Una vez definida la 
base de datos para el uso del material lingüístico, el corpus pasará por una tercera revisión de un hablante 
lingüista y nativo del alemán. 

8 Dentro de los corpus del alemán escrito se cuentan, entre otros: das Deutsche Referenzkorpus - DeReKo (In- 
stituts fur Deutsche Sprache, 2018), Digitales Wórterbuch der deutschen Sprache - DWDS (Berlin-Branden- 
burgischen Akademie der Wissenschaften, s.f.), das Projekt deutscher Wortschatz (Automatische Sprachver- 
arbeitung am Institut für Informatik der Universitat Leipzig, 1998) y el corpus Südtirol (Team Korpus Südtirol, 
s. f.). Para el alemán oral existe el Datenbank gesprochenes Deutsch - DGD2 (Deppermann & Schmidt, 2014) 
y el GeWiss (Herder-Institut - Universitát Leipzig, s. f.). 
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En el contexto de esta investigación, entendemos por corpus el conjunto de textos 
orales que han sido digitalizados a partir de la recopilación y estructuración de las líneas 
de diálogo de la serie alemana Tiirkisch fiir Anfánger. Como describe Jens (2015, p.16), 
desde mediados de los noventa, diferentes cómicos como Mundstuhl, Kaya Yanar Spaß- 
Duo Erkan y Stefan potenciaron el lugar de los llamados etno-formatos en la radio y con 
estos, los diferentes estilos de la lengua. En este contexto, surge la etno-comedia Tiirkisch 
fiir Anfánger. Entre los años 2006 y 2008, ya se habían creado tres temporadas de esta serie 
que llamaba la atención sobre la relación de la familia turco-alemana Schneider-Oz-Tiirk, 
conformada por una madre alemana de Berlin-Neukélln y un padre turco, ambos con sus 
dos hijos de tradición turco y alemana, respectivamente. A través del humor en la sobre- 
actuación de los clichés de ambas culturas, se logran plasmar aspectos de la actualidad 
alemana como la inmigración, la interculturalidad y la búsqueda de identidad de los inmi- 
grantes. En este proceso, la lengua usada comienza a proponer reflexiones de índole social, 


como advierte Jens (2015) sobre uno de los personajes de la serie: 


con su elección lingüística, de la prosodia, como también de su lenguaje corporal y su ropa, 
remite Cem a ambientes sociales característicos en los que se desenvuelve. En esta forma 
extrema estilizada de hablar unifica elementos de la cultura Hip-Hop, como de anglicismos 
adaptados (...) con elementos típicos juveniles (p.16). 


Justamente esta riqueza semántica, física y visual es la que nos interesa para proponer la 
construcción de un corpus lingüístico de este idioma que contenga variedades diatópicas, 
diafásicas y diastráticas del alemán oral actual y que den cuenta de las diferentes estrategias 
sintácticas, fonológicas, gestuales, corporales y lexicales que dan lugar a lo que la autora 
denomina la “realización de una categoría identitaria” (Jens, 2015, p.18). 

Consideramos que justamente es este proceso de construcción de identidad el que 
experimentan los aprendices de lengua y, por tanto, la finalidad de este corpus consiste en 
conducir a los aprendices a la lengua auténtica, entendida esta como aquella que es cerca- 
na a la lengua en uso, y a un proceso de identificación con su propia construcción de 
identidad que se da en la lengua meta. 

Es importante aclarar que no desconocemos que la lengua usada en una serie de tele- 
visión corresponde a lo que diversos autores han denominado “la oralidad fingida” (con- 
cepto introducido por Goetsch (1985, p.202) para describir la oralidad de textos literarios 
y que se refiere a la “ilusión de autenticidad” que existe en lo escrito que ha sido creado 
para lo oral, como lo es un guion de televisión), de modo que el corpus que creamos a 


partir de una lengua con estas características se permea de ellas. 
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Consideramos, por tanto, que este tipo de oralidad creada “puede contribuir a crear la 


ilusión de verosimilitud, ayudar a situar la acción en una determinada época y región, con- 


trastar el lenguaje de los personajes según la pertenencia a cierta clase social o según la edu- 


cación, y cotejar la incorporación de elementos procedentes de la tradición y el saber orales” 


(Goetsch, 1985, p.217). A pesar del reconocimiento de dicha ilusión consideramos que este 


corpus representa un material cercano a lo auténtico y real en el uso oral del alemán actual. 


Para la comprensión de los resultados cuantitativos, en términos de usos de las fórmu- 


las rutinarias de acuerdo con el interlocutor, proponemos el siguiente cuadro descriptivo 


de personajes: 


Tabla 2. Personajes de la serie Túrkisch fir Anfánger. 


Personaje Actor/Actriz 


Rol 


Descripción 


Lena Schneider (per- Josefine Preuß 


sonaje principal) 


Hija de Doris y Markus; 
hermana de Nils; herma- 
nastra de Yagmur y Cem 


Es una adolescente de 16 años, 
estudiante de Secundaria de 
origen alemán. 


Doris Schneider Anna Stieblich 


Madre de Lena y Nils; 
hija de Hermi, hermana 
de Diana; madrastra de 
Yagmur de Cem; esposa 
de Metin 


Mujer adulta y psicoterapeuta de 
origen alemán. 


Metin Öztürk Adnan Maral 


Padre de Cem y Yagmur; 
padrastro de Nils y Lena; 
esposo de Doris 


Es un adulto comisario de origen 
turco. 


Cem Öztürk Elyas M'Barek 


Hijo de Metin; hermano 
de Yagmur; hermanastro 
de Lena y Nils; Ex novio 
de Ching y Ulla 


Es un joven estudiante que al 
terminar sin éxito el examen de 
secundaria estudia para formarse 
como policía. Su origen es turco. 


Yagmur Öztürk Pegah Ferydoni 


Hermana de Cem, hija de 
Metin; hermanastra de 
Nils y Lena 


Joven estudiante de secundaria 
de origen turco. Posteriormente 
se dedica a la traducción de 
textos turcos al alemán y trabaja 
para el Parlamento Alemán. Su 
origen es turco. 


Costa Papavassilou Arnel Taci 


Mejor amigo de Cem; 
prometido de Yagmur 


Joven estudiante de secundaria 
que al terminar la secundaria 
crea su propio negocio de moda. 
Su origen es griego. 


4. Análisis cuantitativo del corpus 


Con el fin de analizar el uso de las fórmulas rutinarias en el contexto de saludo, es impor- 


tante tener en cuenta la representación que cada personaje tiene en la serie en términos de 
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su participación como interlocutor, esto es, en términos del tiempo de intervención. A 
continuación, se observa que en consecuencia con el rol que asume Lena, la protagonista, 


es quien más participa; asimismo, Doris, su hermanastro Cem y su padrastro Metin. 


Líneas de diálogo por personaje 
3000 
1955 
2000 
1160 ayo 
1000 d 227 211 
l CO 


Figura 1. Líneas de diálogo por personaje. 


Dentro de las fórmulas rutinarias de saludo informales encontradas en el corpus, la más uti- 
lizada es hey. De las 200 ocurrencias de esta fórmula rutinaria, 107 tienen la función de saludo, 
las demás 93 se utilizan en contextos en los que los interlocutores llaman la atención y se 
categorizan como fórmula rutinaria de contacto. La segunda más usada es hallo! y le sigue hi! 
De estas, las más frecuentes en los textos de aprendizaje suelen ser hallo! y hi!; esporadicamen- 
te se incluye hey, contrario a lo que muestra el corpus. Este fenómeno también se presenta en 
las fórmulas Guten Morgen y Morgen, la segunda de estas es más usada en el corpus y no 
necesariamente en los libros de enseñanza como Studio d (2010), Berliner Platz neu (2017) o 
incluso más recientes como Linie 1 (2017). Se explica esto teniendo en cuenta que la mayoría 


de los manuales se suelen regir por la norma escrita y no por la norma hablada. 


Lineas de diálogo que usan la fórmula 


107 


33 


11 15 
5 2 1 3 1 2 a f 
_4 æ æ - s —== =w = = 
` Sy A A GS. oA a es 
E ES 00 A e S © $ KO & ee SE SE 
c 2 
SS > $ O oF .& 
e > sE $ SS SI e 
> % SP 
Ss Y 
S ¿e 


Figura 2. Líneas de diálogo que usan fórmulas rutinarias de saludo o recibimiento. 
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La formula rutinaria mas frecuente, hey, es usada incluso por personajes que tienen pocas 
intervenciones. En cuanto a fórmulas de recibimiento explícitas, únicamente se identifican 
dos a lo largo de todo el corpus: Wir begrüßen euch y Begriifse deine Füße! Se destaca que 
esta fórmula es mayoritariamente usada por interlocutores jóvenes, resaltados en negrilla 
en la siguiente gráfica. Precisamente, Doris, siendo un personaje principal y que tiene en 
el corpus una participación comparable a la de Lena, no hace uso de la fórmula hey. Por 


tanto, habría que tener en cuenta esta variable relativa a la edad. 


hey 


Yagmur; 3 


Doris; 1 


Figura 3. Uso de la fórmula rutinaria hey, por personaje. 


Contrario a esta particularidad, la fórmula rutinaria hallo es usada tanto por jóvenes como 


adultos, como se observa a continuación: 


hallo! 


m Cem 

m Axel 

m Doris 

E Lena 

m Metin 
= Yagmur 


= Varios 


m Objeto (pretzel) 


Figura 4. Uso de la fórmula rutinaria hallo!, por personaje. 
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Si bien la fórmula rutinaria hi tiene un uso algo frecuente, es usada solo una vez por el 
personaje Doris (madre) y no es usada por Metin (padre), dos de los personajes de mayor 


edad en la serie. 


hi! 


E Cem 

E Axel 

m Doris 

E Lena 

E Yagmur 
m Ching 

m Kathi 


E Ching's Freund 


Figura 5. Uso de la fórmula rutinaria hi!, por personaje. 


Teniendo en cuenta los personajes de mayor participación, se puede inferir que los perso- 
najes más jóvenes tienden a utilizar en igual medida tanto hallo como hi y en menor pro- 
porción usan hey. Por otra parte, vemos que los personajes adultos utilizan más hallo y no 


hi ni hey. 


Uso comparativo de fórmulas rutinarias de 
saludo 


m hallo 
mhi 
m hey 


Lena Doris Cem Metin 


Figura 6. Uso comparativo de las fórmulas rutinarias de saludo hallo, hi y hey, por personaje. 
Morgen aparece como una fórmula destacada dentro de las unidades fraseológicas de salu- 


do (26 veces), incluso con más del doble de las ocurrencias de guten Morgen (11 veces). En 


ambas se observa una frecuencia de uso independiente de la edad del interlocutor. 
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Morgen 


Es 


Figura 7. Uso de la fórmula rutinaria Morgen, por personaje. 


guten Morgen! 


Figura 8. Uso de la fórmula rutinaria guten Morgen!, por personaje. 


La gráfica a continuación nos muestra la posibilidad de usar la mayoría de fórmulas ruti- 
narias de saludo agregando un nombre a su estructura, como por ejemplo, hey Kathi, 
Morgen Cem, hallo Metin, hi Axel, Wie gehts Yagmur?, grüfß Gott Cem! A excepción de 
guten Abend, Mahlzeit! y Moin, en todas las demás fórmulas aparece un nombre dentro de 


su estructura, al menos una vez. 
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FRs de saludo que se usan agregando un nombre 
70 


24 
da 19 
4 a 2 a 3 a 1 
Pai ay => = 
` ` X, NS — ` a A 
E $ EOS $ e SS 
OS > ES o è 
Y S o e es 
S $ o SS 
> ye 
SS 
wy 


Figura 9. Fórmulas rutinarias de saludo que se usan en combinación con un nombre. 


5. Reflexiones didácticas 

Con los hallazgos descritos, es consecuente plantear ejercicios didácticos en los que el 
profesor de lengua entregue a sus aprendices un input de fórmulas rutinarias que los sen- 
sibilice frente a la posibilidad de crear conversaciones que consten únicamente de dichas 
unidades, como lo muestra el siguiente ejemplo de nuestro corpus: Hallo, hier ist die Doris. 
Macht euch ‘nen ganz schónen Abend und kommt auf keinen Fall vor vier nach Hause, ist 
das klar? A su vez, la fuente lingitistica de los aprendices puede proponerse a manera de 
ejercicio en el que se deban ordenar las líneas del diálogo y que de este modo el aprendiz 
se enfrente a la toma de decisiones frente a los espacios del diálogo más adecuados en el 
uso de las fórmulas rutinarias. Con ello, notará el aprendiz que para algunas de estas uni- 
dades la dependencia del contexto será más o menos rigurosa. 

Además, en concordancia con los resultados de los datos cuantitativos, podemos plan- 
tear didácticas de aquellas unidades que hayan sido recurrentes en su uso como la fórmu- 
la hey, hallo o hi, pero a la vez sobre aquellas no tan representativas como grüfß Gott, de las 
que se obtenga información que pueda ser revisada a la par de aquello propuesto en los 
manuales de enseñanza. Asi, algunas de las actividades lingüísticas pueden partir de la 
asignación de tareas por parte del profesor que permitan la exploración del uso de fórmu- 
las rutinarias con particularidades de tipo regional. Allí por ejemplo el aprendiz puede 
indagar, desde un punto de vista analítico y a través de la observación del contexto, qué 


interlocutor hace uso de la fórmula grüß Gotf”, sus características como hablante y las 


9 grúf Gott es utilizado únicamente por Ulla, quien se caracteriza por ser muy religiosa. Algunas situaciones en 
las que usa la fórmula son: en el saludo del buzón de su teléfono ("Grüß Gott hier spricht Ulla!”), al saludar en 
persona ("Grüß Gott Mr. Rimp.”) y al presentarse ("Grüß Gott ich bin Ulla”). Se puede tener en cuenta que esta 
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condiciones de uso de esta unidad frente a los contextos. El docente, por su parte, puede 
integrar en el aula guías didácticas que aprovechen el potencial de todo lo que un medio 
visual ofrece: imagen, sonido, texto. La imagen podrá ser revisada en términos de la ges- 
tualidad que conlleva el gesto de una fórmula; el sonido permitirá reflexionar sobre la fo- 
nética o entonación y el texto se convertirá en una fuente para el desarrollo de ejercicios 
de tipo lingüístico o cultural. Estos ejercicios permitirán que el aprendiz se acerque a lo 
que Lavid (2005, p.142) denomina el conocimiento pragmático que implica el saber del 
contexto lingtiistico-discursivo, así como del extra-lingiiistico. 

Dentro de nuestras propuestas también sugerimos abordar el corpus desde la perspec- 
tiva de la fraseodidáctica contrastiva. En esta, los aprendices recurren a sus conocimientos 
de lengua materna y de su mundo conocido con el fin de crear traducciones en la forma 
de subtitulación o doblajes de la serie de la que cuentan con un texto recopilado en la 
forma de corpus y que puede ser llevado a la comprensión de los significados de las fór- 
mulas rutinarias en el contexto auténtico y real de su uso. Así, la reflexión desde la lengua 
materna les permitirá hacer deducciones sobre fenómenos que caractericen dichas unida- 
des como su gestualidad o entonación y con ello fortalecer las competencias comunicativas 


orales de la lengua en fase de aprendizaje, en este caso, del alemán. 


Conclusiones 
Este análisis de tipo cuantitativo nos permitió clasificar los datos observados y describir 
aspectos de la lengua que a continuación pueden ser tenidos en cuenta en la reflexión 
didáctica. Hemos detectado, a partir de resultados representativos, que hey, incluso aunque 
no sea una fórmula usualmente incluida en los textos de enseñanza, sí cuenta con un uso 
extendido por parte de interlocutores jóvenes. Por otro lado, al comparar otras fórmulas 
de saludo, para los adultos de la serie fue más frecuente el uso de hallo. Notamos también 
que otras fórmulas pueden ser utilizadas en la comunicación oral en combinación con un 
nombre propio o un pronombre. Algunos casos muestran también el uso de dos fórmulas 
rutinarias como Hallo Metin, schón dich zu sehn; Vorzimmer Dr. Schneider, guten Tag, was 
kann ich fiir Sie tun?; Hi Cem! Na, was geht so; Hi Kathi! Tschuldige, dass ich mich jetzt erst 
melde..."°. 

Ahora bien, recurriendo a los datos, a su clasificación, a su análisis y uso, proponemos 


algunas reflexiones didácticas que permitirán además la recepción y producción de dis- 


fórmula tiene una marca regional del sur de Alemania y de Austria. 
Dentro del corpus se encontró un total de 52 fórmulas de saludo combinadas con otra fórmula. 
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cursos que articulen un lenguaje cercano a lo auténtico del alemán como lengua extranje- 
ra. Partimos de la hipótesis según la cual “en una palabra, los análisis cuantitativos permi- 
ten explorar y llevar a cabo descubrimientos sobre los patrones de uso de la lengua de 
forma rigurosa y fiable, ya que permiten comprobar empíricamente las hipótesis sobre el 
uso de la lengua” (Lavid, 2005, p.325). 

El carácter representativo del alemán coloquial actual que muestra el corpus descrito 
al inicio del artículo, así como su fácil manipulación”, permitirá que este sea explotado 
tanto por aprendices como por profesores de la lengua alemana, facilitando la creación de 
aplicaciones didácticas. Al respecto, de acuerdo con la propuesta de Lavid (2005, p.139), si 
bien la ventaja en el uso de corpus se basa en la posibilidad de indagar los significados de 
determinados términos de acuerdo con su aparición y distribución, son también relevan- 
tes en el análisis los términos que no estén representados de manera significativa. Las 
fórmulas rutinarias son complejas por su componente social y contextual y deben ser 
puestas en conocimiento del aprendiz desde el principio del proceso de aprendizaje. Tal es 
el caso del subgrupo de fórmulas rutinarias de saludo, para las que hemos concluido que, 
aunque ciertos hablantes adultos no utilizan, es común en el contexto del alemán de los 
jóvenes. Ejemplos de ellos son hey o hi, dos fórmulas que se descuidan en los manuales y 


por ende muchas veces en el aula de la enseñanza del alemán como lengua extranjera. 
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Abstract: This article aims to introduce CLEC's web application (Colombian Learner 
English Corpus) to the research community. This application was created to search 
for information within a learner corpus labeled with error tags to add, modify and 
eliminate data. After having the corpus collected and tagged, it was necessary to 
create a tool that systematically searches for information within the labeled data. The 
compilation of the learner corpus followed the guidelines of the Computational Cor- 
pus Linguistics (McEnery & Hardie, 2011) and the parameters of learner corpus Grang- 
er (2002), Gilquin (2015). The result is a web app designed to seek error tags within a 
context that can be easily revised and expanded through the system administrator. 
This corpus is available online, and it is open to any researcher who wants to consult 
it or contribute with data to enhance the corpus. 

Resumen: Este artículo tiene como objetivo presentar la aplicación web de CLEC 


(Colombian Learner English Corpus) a la comunidad investigadora. Esta aplicación 
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fue creada para buscar información dentro de un corpus de aprendices etiquetado 
con etiquetas de error para agregar, modificar y eliminar datos. Luego de haber 
recolectado y etiquetado el corpus, fue necesario crear una herramienta que hiciera 
búsquedas sistemáticas de información dentro de los datos etiquetados. La compi- 
lación del corpus de aprendices siguió las pautas de la Linguistica de Corpus Com- 
putacional (McEnery & Hardie, 2011) y los parámetros de los corpus de los aprendices 
Granger (2002), Gilquin (2015). El resultado es una aplicación web diseñada para bus- 
car etiquetas de error dentro de un contexto que se puede revisar y expandir fácil- 
mente a través del administrador del sistema. Este corpus está disponible en línea y 
está abierto a cualquier investigador que quiera consultarlo o que quiera aportar 


nuevos datos para aumentar el corpus. 


Introduction 
Learner corpora (LC) emerged in the late 1980s (Granger et al., 2015) as a valid scientific 
way to analyze learners' output and has the same characteristics attributed to other corpo- 
ra with the difference that the source of data is the output of language learners. Defined as 
“electronic collections of natural or almost natural data produced by foreign or second-lan- 
guage students (L2) and gathered according to explicit design criteria” by Granger (2002, 
p.7) and Gilquin (2015, p.1). LC has gained significance in the analysis of students’ produc- 
tion. Regarding the authenticity of the data produced in a classroom, it is important to 
remember that the environment is not completely natural because the activities to obtain 
that input involve some kind of “artificiality” (Granger, 2002, p.8). Also, special attention 
must be paid to the criteria to build the corpus. The learner corpus” metadata, such as 
students’ characteristics and the task they develop, are important factors for data collection. 

The growth of LC in the late 1980s was in part to its potential to investigate authentic 
output from students. This methodology gives researchers access to outstanding amounts 
of data samples to do searches for collocations, patterns, and statistics. In the field of re- 
search on second and foreign language acquisition and teaching, learner corpora give ac- 
cess to learners' errors when they have been previously tagged, facilitating the analysis of 
such errors. 

Error Analysis (EA) appeared in the early 1970s, and Corder (1967) was the first author 
to propose the idea that second language learners generated an autonomous linguistic 
system that he called “transitional competence”. The author argued that learners gradually 


modify their native language rules towards target language rules, probably using a univer- 
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sal grammar or what he called a “built-in syllabus”. Later, Selinker (1972) called the built-in 
syllabus interlanguage, and this is the term that has prevailed in time. It refers to the version 
of language produced by a learner. The analysis of the interlanguage of learners can be 
performed through the analysis of errors. Error analysis is “the investigation of the language 
of second language learners” (Corder, 1971, p.14). These analyses can be done using elec- 
tronic learner corpora to obtain statistics and patterns and analyze what learners lack or 
need in their learning process. A learner corpus can be very useful when it has error labels 
to facilitate extensive studies. 

Although the usefulness of a corpus of learners’ language with error labeling is unde- 
niable, it does not, on itself, facilitate extensive studies that could be carried out on it. For 
that reason, taking advantage of the fact that this corpus has a marking of errors in a set of 
texts, a collection of documents was generated and later uploaded into a database. After 
having the corpus collected in electronic format, there was a need for a tool that allowed 
researchers access to the corpus and provided the possibility of making queries with dif- 
ferent filters. 

The present paper starts with a brief description of the previous related work in learn- 
er corpora. Then, it describes the theoretical framework that supports this work along with 
the process followed during the compilation of the present corpus and the error tagging 
process. Afterwards, it narrates how the CLEC’ app was designed and how it works to 
obtain its best performance. This project was developed with the research group Transla- 
tion and New Technologies (TNT) of the School of Languages at Universidad de Antioquia 


and makes part of the products of a doctoral thesis. 


Previous work 

There are numerous corpora of English learners that contain samples of learners who have 
Spanish as their mother tongue, UC Louvain, (2018). Some of them are the Written Corpus 
of Learner English (WRICLE) Mendikoetxea et al., (2009); the Santiago University Learn- 
er of English Corpus (SULEC) Santiago University, (2002): the Gachon Learner Corpus 
(GACHON) Carlstrom and Price, (2012); the NOn-native Spanish corpus of English 
(NOSE) Diaz-Negrillo, (2012); the International Corpus of Learner English (ICLE) Grang- 
er, (2003). The ICLE and the NOSE can be highlighted as corpora of English language with 
samples of learners who have Spanish as their mother tongue. The ICLE is considered a 


pioneer in the field of learner language corpus. It has a relatively large collection (approx- 


CLEC can be accessed via this URL: https://grupotnt.udea.edu.co/clec 
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imately 3.7 million words) of learners’ written output from 16 different mother tongues, 
including Spanish. A CD containing the collection of texts must be purchased along with 
a desktop software to carry out searches and analysis on them to have access to this corpus. 
On the other hand, the NOSE (The NOn-native Spanish Corpus of English) has a collec- 
tion of approximately 1000 argumentative and descriptive texts from students at the Uni- 
versity of Granada and University of Jaen. It has labeling of errors under the EARS system 
Diaz-Negrillo, (2009). Apparently, this corpus had a web interface for its consultation 
allowing filtering by subject, text type, and parameters of the students profile, but it is 
currently not accessible. Most of these corpora lack error labeling, and none of them cur- 
rently has an accessible interface for researchers or the public to allow searches on them. 
The corpus of the present analysis has a collection of documents labeled with error tags. 
It lets researchers, students, and teachers carry out searches systematically and with the 
possibility of filtering errors on different categories and types. Also, with this app, it is 
possible to obtain examples of these errors and their corrections. For the case of errors that 
represent more than one error category, a new functionality was developed to change error 
tags when necessary. This development results from a long process of trial and error, plus 
tests to achieve an app that allows adding, modifying, or eliminating errors or documents. 
These functionalities are carried out with a corpus management system that is powerful, 
versatile, and friendly. Initially, the development of this app was carried out in a technol- 
ogy called Django, which makes use of the Python language, but it was determined that 
the app should allow not only to consult but also to comply with all the initials of the CRUD 
concept (James, 1980) (Create, Read, Update, Delete). Therefore, to carry out this scalabil- 
ity process, an architecture and a technology analysis exercise were developed to enable 


the web application to perform these functions. 


Corpus collection process 
There are several options to collect a learner corpus. It can be collected as part of an aca- 
demic activity in which all students participate, e.g., as an exam with its corresponding 
permission for data use. Another option is to ask students to volunteer their work if they 
are willing to participate. In this second option, attention must be paid not to introduce a 
bias considering that the most successful students would be more willing to participate 
than those with a low performance, which would compromise the balance and represent- 
ativeness of the data. 

Regardless of how a corpus is collected, texts in a learner corpus do not occur strictly 


in a natural way because they are produced in a classroom context and are the result of 
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activities designed to improve the learners’ skills in the target language. In the present re- 
search, the output collected results from elicitation techniques that searched for the most 
natural output from students. The output resulted from questions that elicited students’ 
information or opinions from current situations that affect their daily lives. Participating 
students were able to choose their own words to express their opinions in their composi- 
tions. The present research was based on the analysis of a written corpus from a cross-sec- 
tional study. 

A written corpus can start with handwritten or typed texts. In the case of handwritten 
texts, the researcher must make sure the transcription is accurate; therefore, in typing, it is 
essential to trace the texts for any involuntary addition or loss of data. When all texts are 
collected, they should be coded, indicating a reference and information that make them 
traceable. Attention must be paid to quotations that do not belong to the learners’ produc- 
tion. Guilquin (2015, p.19) recommends to “remove quotations (which do not represent the 
learner's own use of language and may therefore have to be excluded from the analysis of 
the corpus)” In the present work, quotations were not removed to keep the entire context 
from errors. In some cases, removing quotations would mean losing fundamental parts of 
the text indispensable to understand the context. On the contrary, they were kept, but close 
attention was paid to not analyze those parts. On the other hand, in the case of direct 
computerized versions of learners’ texts, they can be kept in files as TXT texts to make sure 
they can be uploaded in the most appropriate software to conduct the tagging process. 

The principles of learner corpora guided the collection of the present corpus (Pardo, 
2020). These are some of the guidelines that should be taken into account when designing 


a corpus of learners, according to Granger, (2002), see Table 1. 


Tabla 1. Guidelines for designing a learner corpus (Granger, 2002, p.9). 


Learner Task settings 
Learning context Time limit 
Mother tongue Use of reference tools 
Other foreign languages learned Type of test 
Level of performance of English as a Foreign Lan- Audience / speaker 
guage (EFL) (The researcher could add other information that 
(The researcher could add other information that consider relevant) 


consider relevant) 


After having the institution’s permission to carry out the research, several stages were 
needed to accomplish the collection process. Students did a placement test consisting of 


an online test supplied by Oxford University Press (Oxford University Press, 2017) and 
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available at www.oxfordenglishtesting.com. After a brief registration and the introduction 
of a password, the student starts a one-hour test of about 100 questions that the system 
sorts out with different degrees of difficulty to determine the student's language level. This 
test type guarantees that students are classified according to their performance following 
the Common European Framework of Reference for Languages (Europe, 2001). 

In Table 2 it can be observed how the population of the present study was distributed. 
Participating students in this study were registered in different semesters from several BA 
programs offered by the university: Architecture, Basic Sciences, Health Sciences, Law, 
Politic Sciences, International Affairs, Business School, Humanities and Social Sciences, 
Engineering, Education Studies, and Mathematics. All participants share the same mother 


tongue: Spanish and their average age is 23. 


Table 2. University classification according to CEFR (Pardo, 2019). 


Intro- Level 
ductory 

Level 
U. Norte Levels 1 2 3 4 5 6 7 8 
CEFR Al A2 A2 B1 B1 B1 B2 B2 B2 
Number of Students 110 496 439 409 325 356 377 335 286 

Pre- Interme- Intermediate Upper- 
Intermediate diate Il Intermediate 


After the files were collected, they were processed in different ways because they were 
submitted in different formats. For instance, and because their final work was handwritten, 
for level Bi the process started with the scanning followed by the texts’ typing. External 
assistants did the typing of texts in their final year of their BA in languages at Universidad 
de Antioquia. They were given clear instructions regarding neither adding nor subtracting 
any words from the original handwritten compositions. After all texts were transcribed, 
they were thoroughly checked for mistakes and to make sure they were exactly as the 
original. Next, they were converted into TXT texts to do error annotation. Students from 
level B2 directly did the digital version; therefore, those texts were immediately converted 
into TXT format for the error tagger. The handwritten files were in total 373, and the pro- 
cess of typing lasted approximately seven months. After all the previous preparation, all 


files were ready to start annotation. 
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3.1. Error annotation process 

As any other kind of corpora, learner corpora start as raw texts of electronic versions or 
transcribed texts from spoken learner output. Van Rooy (2015, p.79) mentions three advan- 
tages of using learner corpora to do research in language teaching: size, variability, and 
automation. Size refers to the amount of data that can be processed (computerized corpus 
allows analyses of great amounts of data). Variability refers to the possibility of having 
more individuals and more text types to include in a corpus. This advantage is also linked 
to the possibility of having a computerized corpus. Finally, automation refers to some 
automatic aspects of data analyses possible thanks to information technologies (IT). 

Corpus annotation is “the practice of adding interpretative, linguistic information to 
an electronic corpus of spoken and/or written language data” (Wynne, 2005, p.25). The 
added information comes in the form of tags, which can be defined as single entities add- 
ed to one part or parts of the speech. Tags are unique and can identify features of the 
analyzed learner corpus. There are different types of annotation, and they require different 
tags depending on the goal of the researcher. For instance, descriptive linguistic uses Part 
of Speech (POS) tags to obtain grammatical annotation in a corpus. Another example is 
semantic annotation that requires assigning each word a semantic field used to do refined 
searches and classifications according to the research purpose. For error analysis, the an- 
notation process is done to identify errors according to various categories and types. 

To annotate errors, it is necessary to interpret learners’ choices and decide in what 
category the error best fits. This entails the construction of one or several target hypotheses 
that the researcher must test. It is impossible not to interpret data. Only through interpre- 
tation, the researcher will find ways to unhide possible hypothesis to do an essential anal- 
ysis. Assigning a tag to an error means that it was the researcher’s interpretation, and that 
interpretation is publicly available for the reader. For that reason, when an error-tag is 
assigned, there could be other interpretations, but the most important is to keep uniform- 
ity in the way the tags are used. “The usefulness of error annotated corpora depends on the 
consistency on the annotation” (Ludeling & Hirschmann, 2015, p.148). Once the present 
learner corpus was annotated, it was easier to identify and extract data to analyse because 
the data was organized and ready to be used with software that permits further analyses. 

For the present work, the learner corpus was tagged with a standardized error taxono- 
my that permitted the search and counting of errors analyzing within their context. The 
software used to extract error tags was WordSmith (Scott, 2005) and LancsBox. (Brezina 


et al., 2015). WordSmith was used to obtaining the total statistics of errors, the dispersion, 
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and patterns that most affect the learner’s production. LancsBox was used to obtain a more 
detailed profile of each error type and the corresponding graphics. 

Regarding the annotation types in error analysis, there are two different types of anno- 
tation: emendation and categorization (Rosen et al., 2012). In the first case, the researcher 
establishes one or more target hypotheses and does the correction according to the author's 
intention. On the other hand, the categorization is done following a previous established 
list of errors, because error annotation relies on error taxonomies and their categories for 
error classification. In the present work, after choosing a target hypothesis the researcher 
did an error categorization, adding predefined tags according to the Manual of Error Tag- 
ging from Louvain University version 1.2 (Dagneaux et al., 2005). The corpus contained in 
the CLEC is a digital collection of 515 written files from English as a Foreign Language 
(EFL) university students registered in different careers. After the corpus was collected, the 
files were labeled. When an error was detected, the label was placed just before the error, 
and the correction followed the error between two-dollar signs: $ correction $ as the man- 


ual indicates: 


Example: 


Nowadays, we have seen (GADJN) differents $different$ (This error corresponds to the Grammar category and 
refers to the pluralization of an adjective (ADJN) in English). 


The errors labeled and corrected in the CLEC are classified in the following eight categories 

that grouped a total of 56 error types. Please refer to appendix 1 of the present article to see 

the error types in detail. 

+ Form (F): groups the words used that do not exist in English and other errors of a formal 
type. 

+ Grammar (G): groups the errors that violate the general rules of English grammar. 

+ Lexical-grammar (X): errors where the morphosyntactic properties of a word are vio- 
lated. 

+ Lexis (L): errors related to the semantic properties of words or sentences. 

+ Words (W): redundant words, missing words, or wrong word order. 

+ Punctuation (Q): errors related to punctuation marks. 

+ Style (S): incomplete sentences and unclear sentences. 

+ Infelicities (Z): registration problems (related to the field, the mode and the tenor of the 


speech) and issues of political correctness. 
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The next step after doing the error labeling was the extraction and alignment of the corpus. 
This process was carried out using an extraction software that searched for the labels and 
grouped them according to each error type. Tags were extracted within a context that 
granted proper analysis. The corpus’s alignment was done using WordSmith, Scott, (2005) 
and LancsBox software, Brezina et al. (2015), which permitted the identification of lan- 
guage patterns obtaining statistics of the data with their respective graphs. After this pro- 


cess, the analysis of the findings took place. 


. Corpus metadata summary 


The following are the main features of the corpus. 

+ Medium: written production 

© Students belong to different university majors 

+ The EFL courses are 64 hours with an intensity of 4 hours per week for 16 weeks 

+ Native language of learners: Spanish 

+: Target language: English 

+ Genre of texts: there is a combination of genres between opinion paragraphs on differ- 
ent topics for level Bi and argumentative essays for level B2 

+ Tokens per text: at level Bı a maximum of 200, at level B2 up to 700 

+ Type: local corpus that seeks to identify needs and failures of learners 

+ Data compilation: it is a synchronous corpus with data collected in the second semester 
of 2015 

* The incidence analysis was done by calculating the percentage of errors per 100 tokens 
to guarantee the proportionality of the analysis 


+ Corpus characteristics 149,325 tokens, 12,164 types and 12,337 lemmas 


Methodology in the designing of the web application CLEC 

After having the corpus collected and labeled with error tags, it was necessary to develop 
an application that systematically allowed the search of errors with the possibility to filter 
them according to different categories and types. It was also required that the app could 
allow changes in the error tags when they overlap among error categories. Therefore, a web 
application was developed with a frontend and a backend layer. After several tests, the 
functions of adding, modifying, or eliminating unnecessary data in the corpus were 
defined to be implemented. The development was possible thanks to a new technology 


where the frontend and backend responsibilities could be separated, and they were not 
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codependent. The alternative was a backend developed in Node.js (Dahl, 2009) together 
with Express.js (a web application framework for Node.js) for its construction as a REST 
API (Fielding, 2000) and a frontend in a JavaScript-based technology in which the options 
were React (Walke, 2013). It was decided to develop these technologies as they have excel- 
lent documentation and constant updates. Likewise, it was considered that the Node.js and 
React technologies have better support and a much broader community to guarantee a 
better response to the problems that arise throughout the development. 

During the process, it was decided to use the persistence layer MongoDB (Merriman 
et al., 2007) database management system (DBMS), which is document oriented because 
it is consistent with the data of the corpus in the present study. This DBMS allows efficient 
access when making inquiries. The structure shown in Figure 1, allows to store the contexts 
after being processed. In this structure, it can be observed how the data is organized by 


level, name of file, context, error type, and its correction. 


{ 
level:, 
name: , 
context: , 
errors: [{type:, 
error:, 
correction: , 
pos: 
} 
] 
} 


Figure 1. Document structure in MongoDB. 


After defining the technologies to use, the development of the backend started by devel- 
oping the methods for the search of errors. The additional services were defined and devel- 
oped to enable the functions to create, read, modify, and delete contexts and create, read, 
and delete errors. 

In this case, the method for modifying errors was left out as this meant an unnecessar- 
ily large load for processing due to the data's nature. Instead, it was decided to leave this 
functionality implicit as a combination of elimination and addition of errors. The database 
of contexts was populated with the help of preprocessing Python scripts that allowed struc- 
turing the data in the way it was previously defined. The new method of creating contexts 
included all this preprocessing that was required for new contexts. 


In Figure 2, it is shown the architecture of the system described above. 
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CLEC System 
User i i Administrator 
y Presentation 
layer 
ReactJS 
ExpressJS Process 
— layer 
Node.JS 
E = 
E 4 Persistence 
layer 


Mongo DB Database 


Figure 2. CLEC System Architecture. 


As may be observed in Figure 2, the proposed system has two roles: administrator and user. 
The administrator can modify the application’s data, whereas the user can only use the 
application. The most important use cases for both administrator and users are shown 


below in figure 3 and 4, respectively. 


Add an error to a context 


"include" 


Modify a context € "include" Delete an error 


Administrator Administrator 


Remove a context 


Refresh a context 


Figure 3. The administrator's use cases. 
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Search all type 
of errors 


"include" 


"include" 
Filter by corpora 


"include" 


Retrieve partial contexts 
with errors and its 
corrections 


User User 
Search an specific 


context 


"include" 
Filter by error 
category 
Retrieve full context 

with errors and 
its corrections 


Figure 4. Use cases available for all users. 


Each of the use cases depicted above will be illustrated below. 

There were two ways to obtain the text contexts, one that displayed all the texts for a 
general view of different errors within their contexts, and one that obtained a specific text 
for a detailed view of each error within its context. Let us see the general view of different 


errors in Figure 5. 
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UNIVERSIDAD 
DE TIOQUIA 


| Complete Corpora iá 


Cc 


Corpus Contexts Tags Credits 


Login 


All error categories 100 results Stokens v Reset search 
Error type Error Actions 

LS the place because the place no is is the place because the place not is is GOTO 
not from not from CONTEXT 

wo because the place not is no is from because the place not is is not from GOTO 
their country. their country. CONTEXT 

LS not is is not of their countr not is is not from their countr conn 
Y ¥ CONTEXT 

QM weo le in the world W le in the world e 
e O as people in the wor! le, as people in the worl CONTEXT 

wo the places although the places not the places although the places are GOTO 
are from our country. not from our country. CONTEXT 


Figure 5. General view of different error types with their corrections (Pardo et al., 2018) 


In Figure 5, for every sentence, it can be observed at the right side of the menu a button 
link that redirects the search to see each error’s whole context. Clicking that button implies 
seeing the text's whole context that contains the error mentioned at the left side of the 
sentence. When you hit the button “go to context,” you will see what is shown in Figure 6, 


the same error within the full context, and the correction in green. 
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UNIVERSIDAD 
DE ANTIOQUIA 


Corpus Contexts Tags Credits Login 


Final Work: In my opinion, Commercials on 
TV are not honest. First, Commercials do not 
show the disadvantages of the product. For 
example, Commercials about fast food ; they 
just say the fast food is delicious, but they do 
not say, fast food is not healthy. Second, 
Commercials do not say the truth. For 
example, Mc Donald's commercial shows the 
biggest hamburguers of the world, but it is a 
lie, their hamburguers are small. Finally, 
Commercials are bad for your economy. For 
example, the bank's commercials, they just 
want to convince you 0 get a credit card, for 
this, they make offerts for you can get it . In 
conclusion, Do not let Commercials convince 
you about any product; if you are interesting 
in something, ask for it. Commercials are 
dangerou 


Final Work: In my opinion, Commercials on 
TV are not honest. First, commercials do not 
show the disadvantages of the product. For 
example, commercials about fast food 0 O 
just say O fast food is delicious, but they do 
not say, fast food is not healthy. Second, 
commercials do not say the truth. For 
example, Mc Donald's commercial shows the 
biggest hamburguers of the world, but itis a 
lie, their hamburguers are small. Finally, 
commercials are bad for your economy. For 
example, the bank's commercials, O just want 
to convince you to get a credit card, for this, 
they make offers so you can get them. In 
conclusion, Do not let commercials convince 
you about any product; if you are interested 
in something, ask for it. Commercials are 
dangerou 


Figure 6. View of errors with full context and corrections (Pardo et al., 2018). 


Considering the nature of the data and these functionalities, the possibility of modifying 
contexts only to the parts of each text that did not contain errors was added. This was done 
in case the researcher wants to focus only on the text with errors. There were two methods 
to achieve this goal, one that creates lists of both context parts that contained and did not 
contain errors, and a second method that receives similar lists with the modifications 
made. 

Similarly, the services corresponding to creating, reading, and eliminating errors were 
developed. All of them included verifications so that the rest of the errors did not enter 
conflict for their positions and/or for their content. For this part of the process, the service 
to modify errors was left out because it resulted in multiple cases in which some verifica- 
tions of the data required excessive processing. This was replaced by a new possibility to 
modify errors by eliminating a previous error and adding a new one. It was an easier 
function, both for the development process and for the end-user. 

Down, on the right side of Figure 7, 4 buttons allow changes in the corpus: add error, 


modify context, remove context, and refresh context. 
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Corpus Contexts Tags Credits Sign out 


Final DraftIn my opinion some tourists pose a danger 
for the environment.First, a lot of tourists leave their 
trash in the place that they are visiting. For example 
when they eat potatoes chips, they leave the trash in 
the place, and this is bad for the environment. 
Secondly , they don't care the place because the 
place no is no is of their country. We O as people in 
the world should protect the environment, the 
planet and the places although the places not are of 
our country.Finally, sometimes the tourists don't 
know that the place that they are visiting is very 
important for the country. In some cases, when the 
tourist visit Colombia, my country, they go to the 
Tayrona park, the beautiful beaches or the Amazonas 
and they don't protect these places. These places are 
very important for our country, for the environment 
and for the planet. If we don't protect places like 
these, in a future, we will be affected.In conclusion, 
some tourist don't care the environmen 


Final DraftIn my opinion some tourists pose a danger 
for the environment.First, a lot of tourists leave their 
trash in the place that they are visiting. For example 
when they eat potatoes chips, they leave the trash in 
the place, and this is bad for the environment. 
Secondly , they don't care the place because the 
place not is is not from their country. We, as people 
in the world should protect the environment, the 
planet and the places although the places are not 
from our country.Finally, sometimes O tourists don't 
know that the place that they are visiting is very 
important for the country. In some cases, when a 
tourist visits Colombia, my country, they go to the 
Tayrona park, the beautiful beaches or the Amazonas 
and they don't protect these places. These places are 
very important for our country, for the environment 
and for the planet. If we don't protect places like 
these, in the future, we will be affected.In conclusion, 
some tourists don't take care of the environment 


ADD ERROR MODIFY CONTEXT REMOVE CONTEXT | | REFRESH CONTEXT 


Figure 7. View of buttons to make modifications in the corpus. 


These new functionalities are a plus in case there is need for a more detailed work in the 
corpus or to focus on specific parts of the texts. 
A view of the search filters can be viewed in Figure 8. These filters were grouped by 


level: the corpus was divided into 4 levels of English A1, A2, B1, B2. They were arranged in 


an element of type selected: 


Basic (A1) 
Pre-intermediate (A2) 
Intermediate (B1) 
Advanced (B2) 
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CAL ES 06 


COLOMBIAN-LEARNER ENGLISH CORPUS 


Complete Corpora 


All error categories 


Complete Corpora 

Basic Level Corpus 
Pre-intermediate Level Corpus 
Intermediate Level Corpus 
Advanced Level Corpus 


Reset search 


Figure 8. View of levels in the corpus. 


In Figure 9, it can be noticed how the error types explained in the corpus collection section 


of this article were arranged as an element of type select. 


Cay Ee ibe 3 C 


COLOMBIAN-LEARNER ENGLISH CORPUS 


Complete Corpora All error categories Y 


All error categories 
Form (F) 

Grammar (G) 
Lexico-Grammar (X) 
Lexis (L) 

Word (W)? 
Punctuation (Q) 
Style (S) 

Infelicities (Z) 


Figure 9. View of error categories (Pardo et al., 2018). 


In Figure 10, it may be noted how a condition was created so that check boxes with the 
corresponding class error types would be displayed when the selection was changed. In all 
this process, it can be noted how the systems graphic design was created, selecting the 


university’s institutional colors (dark and light green). 
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UNIVERSIDAD E 


DE ANTIOQUIA Corpus Contexts Tags Credits Login 


Complete Corpora Y 100 results id 5tokens ~ | Resetsearch 


Grammar (G) Y 


Ci Demonstrative Determiners (GDD) O Possessive Determiners (GDO) 


O Indefinite Determiners (GDI) O Determiner Other (GDT) O Articles (GA) 
O Noun Case (GNC) O Noun Number (GNN) O Demonstrative Pronouns (GPD) 
O Personal Pronouns (GPP) O Possessive Pronouns (GPO) O Indefinite Pronouns (GPI) 
O Reflexive and reciprocal Pronouns (GPF) O Relative and interrogative Pronouns (GPR) 
J Unclear pronominal Pronouns (GPU) O Adjective Order (GADJO) 
L_) Adjective Number (GADJN) [_) Comparative/Superlative (GADJCS) [_] Verb Number (GVN) 
[_] Verb Morphology (GVM) [_] Non-Finite/Finite Verb Forms (GVNF) [_] Verb Voice (GVV) 


(_] Verb Tense (GVT) [_) Auxiliaries (GVAUX) [_) Word Class (GWC) 


Figure 10. Check boxes to choose error types to analyze in the Grammar category. 


In this case, Figure 10 shows error types from the grammar category, but if the category 
changes, the error types will correspond to the chosen category. 
In Figure 11, it is possible to observe errors within the context of one sentence. The 


errors are in red and in front of the whole text with the corrections in green. 


Error type Error Correction Actions 
GADJO If the system judicial in Colombia If the judicial system in Colombia GOTO 
Guilty severely punishes Guilty severely punishes CONTEXT 
GADJO O people like see O commercials O people like see O fabulous GOTO 
fabulous . commercials. CONTEXT 
A š å e i i GOTO 
GADJO Fraud is a crime serious . Fraud is a serious crime . CONTEXT 


Figure 11. View of errors within a small context. 


The same errors can be viewed in the whole context when hitting the button “go to con- 


text” In Figure 12, we may note the view of the whole context for one of the errors. 
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The con men and women who are caught in 
the act of fraud should be punished severely. 
This persons pose 0 damage for the people 
becouse 0 affect people the form stupid and 
it make feel bad the people. The problem for 
me is the system judicial becouse it Don't 
punished severely. This couse make con men 
and women commit a crime one and other 
time . If O system judicial in Colombia Guilty 
severely O Guilty severely a con men and 
women, it Don't make ever more. it Don't 
make ever more An example of con men is 
David Murcia Guzman, this person creaed a 
piramid piramid illegal and stole much 
people , he was Guilty O 10 year in pri, when 
he payed 3 year in prison, he was Beneficied 
for house for prison for good conduct. This 
example (GVN)make 0 other person Don't d 
to c scary a ba Make 0 inaly, | think con men 
and women caught and freed the n next Day 
is free 


The con men and women who are caught in 
the act of fraud should be punished severely. 
these people pose a danger for the people 
because they ?. The problem for me is the 
judicial system because it doesn't punish 
severely. For this reason, con men and 
women commit a crime again and again. If 
the judicial system in Colombia Guilty 
severely punishes severely punishes the 
guilty O con men and women, it won't make 
ever more. won't ever make it An example of 
con men is David Murcia Guzman, this 
person created a pyramid an ilegal pyramid 
and stole many people, he was punished to 
10 years in prison, when he payed 3 years in 
prison, he benefited with house for prison 
for good conduct. makes that other person 
doesn't (LS) have d to cscareda bacommit 
ainaly, | think con men and women caught 
and freed the nfreed the next day 


Figure 12. View of errors in one file. 


It is necessary to clarify that the view of errors in Figure 12 shows all the different errors 
the student made in his composition, for that reason, there are several categories and types 
of errors. 

All the previous functionalities were oriented for the use of all users, including unau- 
thenticated ones. For authenticated users (administrator role), additional components 
were made available for the other functionalities, including a button, in the context view, 
for each error that would allow the possibility to eliminate them if necessary. Let us see the 


detail in Figure 13. 


Type Error Correction 

DELETE ERROR 
GDD This these 
Type Error Correction 

DELETE ERROR 
FS persons people 
Type Error Correction 

DELETE ERROR 
GA lo) a 


Figure 13. View of the button to delete errors (Pardo et al., 2018). 


Besides, a set of buttons were included at the bottom of the whole contexts, and the buttons 


are: Add, Modify, Remove and Refresh. By displaying a pop-up window, the user selects 
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the context section on which he/she wants to introduce a modification. The same process 


is followed for each case. There is another button to remove the context and the last button 


to refresh the context with the changes made. Let us see Figure 14. 


Corpus Contexts Tags Credits Sign out 


The advertisements with celebrities is effective 
because that they are famous the people are agree 
with to buy the product. First, the celebrities have 
very influence in the people, because they are 
famous and they have much money. So for example 
Shakira is a Colombian celebritie , but, she have 
much money so for this razon she don't live in 
Colombia, she live in Barcelona with her married 
Piqué and her kids. Other razon is that the people 
think that if a any celebritie like O, they have O use 
this product. For example, acme is a celebritie and 
show a oral cream and for this razon the people 
think that this product is O best and they want O use 
the product. Other razon is that the famous show at 
world that this product is best that others . For 
example 0 O the famous expressed his opinion about 
the product very well, so, for this razon the people 
are agree with to buy the product. In conclusion 0 in 
my opinion 0 for the influence that have the 
celebrities in the world this advertisements are 


O advertising with celebrities is effective because O 
they are famous O people O decide O to buy the 
product. First, O celebrities have great influence on O 
people, because they are famous and they have much 
money. So for example Shakira is a Colombian 
celebrity, but, she has much money so for this reason 
she doesn't live in Colombia, she lives in Barcelona 
with her husband Piqué and her kids. another reason 
is that the people think that if a O celebrity likes it, 
they have to use this product. For example, Acme is a 
celebrity and shows an oral cream and for this 
reason O people think that this product is the best 
and they want to use the product. another reason is 
that celebrities show to the world that this product 
is better than others. For example when, the famous 
express their opinion about the product 0 . so, for 
this reason the people O agree O to buy the product. 
In conclusion, in my opinion, for the influence that 
celebrities have in the world this advertisements are 
effective, and O people buy the product 


effective, and the people buy the product 


ADD ERROR MODIFY CONTEXT REMOVE CONTEXT | | REFRESH CONTEXT 


Type Error Correction 
DELETE ERROR 
GA The 0 
Type Error Correction 
Di DELETE ERROR 
GWC advertisements advertising 


Figure 14. View of full contexts and buttons to add, modify and remove data (Pardo et al., 2018) 


Results 

From the previous process, the result was a web responsive application that completely 
performs searches and does analysis on the tagged corpus of errors. This app contains a 
learner corpus of English as a Foreign Language (EFL) learners that has the potential of 
being easily revised and expanded through the role of the system administrator. This new 
functionality will be very useful to enrich the system that can be used by linguists, teachers, 


and students who may consider it to do research. This corpus is available in the given URL 
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and is open to any researcher if you want to consult it or if you want to contribute with 
learner corpora’. 

The development of the backend as a REST API allowed the tests to be carried out 
independently of the frontend, allowing future developers to use this API for new versions 
or refactoring of the frontend. 

Regarding the front end, it was also possible to deliver a design that is very aesthetic 
and friendly. This will allow that existing method and those that would be open to the 
public were simplified and more understandable for use. 

Finally, the web application was deployed on the Translation and New Technologies 
(TNT) research groups of Universidad de Antioquia server. The Colombian Learner Eng- 


lish Corpus (CLEC) is available online at: https://grupotnt.udea.edu.co/clec. 


5.1. Graphical view of errors 
The findings of errors in the corpus were grouped by category and type. Figure 15 shows a 


view of errors by category. 


Great total of errors in eight categories 


3. Lexico-grammar Errors - 


2. Grammatical Errors - G ; X; 279; 1,91% 
6.263; 42,81% > — 
4. Lexical Errors - L; 2.691; 
18,39% 


5. Word Redundant, Word 
Missing and Word Order 
Errors - W; 1.945; 13,29% 


1. Form Errors - F; 1.935; 
13,23% 


6. Punctuation Errors - Q; 
960; 6,56% 


N 


8. Infelicities - Z; 38; 0,26% 
7. Style Errors - S; 520; 
3,55% 


Figure 15. Incidence of errors by category (Pardo, 2019). 


It is clear in figure 15 that the category of errors with most frequency in the corpus was 


Grammar. A more detailed view of errors is displayed by type in Figure 16. 


2 If you want to contribute with data to this project, please contact the authors. 
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Figure 16. Incidence of errors by type (Pardo, 2019). 


In this case, the frequency by type can give us an idea of the frequency of each type of error. 


All this information can be easily retrieved for its analysis using the CLEC app. 


Conclusions 

This work presented the CLEC app, the first corpus of written production of Colombian 
students learning English as a Foreign Language available online for the research communi- 
ty. CLEC works with a modern technology that offers agile maintenance options and allows 
a user interface design that is friendly and allows a satisfying interaction with the app. 

Similarly, it was possible to achieve the construction of a complete, friendly, and safe 
administration system to manage the data of the treated corpus allowing its scalability and 
maintenance to create, read, edit, and eliminate contexts. These functions give the appli- 
cation an invaluable utility for didactic and research matters. 

There were several advantages brought with the technologies used in this project. Using 
React, future development teams will be able to take over the project and add new func- 
tionalities. 

Despite the complexity of the structure in which the contexts and errors were handled, 
it was possible to reduce the complexity of the entire process for the end-user through the 
correct planning of the development and the views. Now it is an interface that allows the 


use of its features in a practical way. 
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Finally, this work gives the academic community an invaluable free access web appli- 
cation, which facilitates the teaching-learning process of English as a foreign language 


through an efficient and friendly error analysis. 
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Appendix 


1. Error categories and types according to the manual of Louvain University 


FM 
FS 
FSR 


GDD 
GDO 
GDI 

GDT 


GA 
GADJCS 
GADJN 
GADJO 
GADVO 
GNC 
GNN 
GPD 
GPP 
GPO 
GPI 
GPF 
GPR 
GPU 


GVAUX 
GVM 
GVN 
GVNF 
GVT 
GVV 
GWC 


Form, Morphology 
Form, Spelling 
Form, Spelling, Regional 


Grammar, Determiner, Demonstrative 
Grammar, Determiner, POssessive 
Grammar, Determiner, Indefinite 


Grammar, Determiner, OTher 


Grammar, Articles 

Grammar, Adjectives, Comparative / Superlative 
Grammar, Adjectives, Number 

Grammar, Adjectives, Order 

Grammar, Adjerbs, Order 

Grammar, Nouns, Case 

Grammar, Nouns, Number 

Grammar, Pronouns, Demonstrative 
Grammar, Pronoun, Personal 

Grammar, Pronoun, POssessive 

Grammar, Pronoun, Indefinite 

Grammar, Pronoun, ReFlexive/Reciprocal 
Grammar, Pronoun, Relative/ Interrogative 


Grammar, Pronoun, Unclear reference 


Grammar, Verbs, Auxiliaries 
Grammar, Verbs, Morphology 
Grammar, Verbs, Number 
Grammar, Verbs, Non-Finite / Finite 
Grammar, Verbs, Tense 

Grammar, Verbs, Voice 


Grammar, Word Class 
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LCC 
LCLC 
LCLS 
LCS 
LP 
LPF 


LS 
LSF 


QC 
QL 
QM 
QR 


SI 
SU 


WM 
WO 
WRS 
WRM 


Lexis, Conjunctions, Coordinating 
Lexis, Connectors, Logical, Complex 
Lexis, Connectors, Logical, Single 
Lexis, Conjunctions, Subordinating 
Lexical Phrase 


Lexical Phrase, False friends 


Lexical Single 


Lexical Single, False friends 


Punctuation, Confusion 
Punctuation, Lexical 
Punctuation, Missing 


Punctuation, Redundant 


Sentence, Incomplete 


Sentence, Unclear 


Word Missing 

Word Order 

Word Redundant Single 
Word Redudant Multiple 


XADJCO LeXico-Grammar, Adjectives, Complementation 


XADJPR LeXico-Grammar, Adjectives, Dependent Preposition 


XCONJCO LeXico-Grammar, Conjunctions, Complementation 


XNCO 
XNPR 
XNUC 
XPRCO 
XVCO 
XVPR 


LeXico-Grammar, Nouns, Complementation 
LeXico-Grammar, Nouns, Dependent Preposition 
LeXico-Grammar, Nouns, Uncountable / Countable 
LeXico-Grammar, PRepositions, Complementation 
LeXico-Grammar, Verbs, Complementation 


LeXico-Grammar, Verbs, Dependent Preposition 


Infelicities 
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Pronunciation of consonant 
clusters in Spanish speakers based 
on the Czech read speech corpora 


La pronunciacion de los grupos de 
consonantes en hispanohablantes 
basándose en el corpus oral leído 
checo 


Kateřina Pugachova & Jitka Veronkova 
Faculty of Arts, Charles University - Czech Republic 


Abstract: The purpose of this study was to determine which Czech consonant clus- 
ters are difficult to pronounce for Spanish speakers, and identify the sound changes 
that are more frequent due to the difference in syllable structure between these two 
languages. Aset of 26 consonant clusters in initial, medial and final word positions was 
selected. The 75 words containing the target clusters were included in a coherent 
text written in Czech (838 words long). Then, the speech of 13 Spanish speakers read- 
ing this text was recorded. Based on perceptual analysis, 27% of clusters were pro- 
nounced incorrectly. The number of correct items among the cluster types and with- 
in the types varied considerably. Substitution, elision and prothesis represented 
almost 90% of all the sound changes. Substitution, being the most dominant, affect- 
ed all studied consonant cluster types. 

Resumen: El propósito de este estudio fue determinar qué grupo de consonantes 
checas son difíciles de pronunciar para los hispanohablantes e identificarlos cambios 
de sonido que son más frecuentes, debido a la diferencia en la estructura de las sí- 
labas entre estos dos idiomas. Se seleccionó un conjunto de 26 grupos de consonan- 


tes en las posiciones inicial, media y final de la palabra. Las 75 palabras que contenían 


247 


Digital Humanities, Corpus and Language Technology 


los grupos de consonantes estudiados se incluyeron en un texto coherente escrito 
en checo (con 838 palabras en total). Luego, se grabó el discurso de 13 hispanoha- 
blantes que leían este texto y se realizó un análisis perceptivo. El 27% de los grupos 
de consonantes se han pronunciado incorrectamente. El número de grupos de con- 
sonantes pronunciados correctamente varió mucho entre los tipos de agrupaciones 
e incluso dentro de las propias agrupaciones. La sustitución, elisión y prótesis repre- 
sentaron casi el 90% de todos los cambios de sonido. La sustitución, que fue la más 


dominante, afectó a todos los tipos de grupos de consonantes estudiados. 


Introduction 

In recent years, the Czech Republic has been hosted to an increasing number of Latin 
American and Spanish people who usually work or carry out their studies at universities. 
Smaller Spanish-speaking groups regularly take part in summer Czech language schools 
for foreigners or attend preparatory courses aimed at potential international students at 
Czech universities. 

However, there are a limited number of textbooks for Spanish speakers on the market. 
Available materials are often a translated version or an older edition. Regarding the Czech 
language of Spanish speakers, rather informal observations of teachers are available, but 
systematic data-based research has not been carried out. 

Our experiment aims to contribute to the research of sound aspects of Czech in Span- 
ish speakers. It focuses on one of the difficult areas, i.e., the pronunciation of consonant 
clusters. Perception analysis is based on recordings of Czech read speech in speakers with 
Spanish as a first language. 

The difficulties of Spanish learners with the pronunciation of consonant clusters or 
consonants in the positions restricted in Spanish have been mainly evidenced by studies 
on the acquisition of English. Based on the review of literature, Moore and Marzano (1979) 
presented a list of possible errors of Spanish students learning English, including conso- 
nants and their clusters. Based on Helman (2004), some of these are possible adaptations 
of unfamiliar English consonant endings, the simplifying of a consonant cluster by deleting 
a consonant, substituting to create an ending permissible in Spanish or a change leading 
to a vowel ending. According to Magen (1998), initial schwa inserted by Spanish speakers 
in English syllable onsets formed by fricative + stop clusters and deleting of final /s/ be- 
longed among factors listeners were sensitive to when they rated the extent of foreign ac- 


cent. The application of Spanish phonological and orthographic rules on English is recog- 
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nized from spelling in written texts as well. (Fashola et al., 1996; Sun-Alperin and Wang, 
2008; Hevia-Tuero et al., 2021) 

The difficulties L2 learners may encounter are not only due to the influence of the Li 
features on the target language. Piske (2001) provides an overview of factors that may affect 
the acquisition of L2 including pronunciation, e.g., the length of stay in the target country 
and the use of language, gender or existing or lacking formal instructions; the existence of 
the so-called critical period is widely discussed (comp. also Singleton, 2005; Rothman, 
2008). Individual differences among learners might be caused, for example, by the cognitive 
and learning styles, language aptitude, motivation and personality (Ellis, 1985, pp. 639-723; 
Hummel, 2014, pp. 193-222). Regarding our speakers, we were mainly interested in circum- 
stances related to staying in the Czech Republic, studying Czech and using Czech in daily 
communication; however, our research is not focused on examining the influence of any 


certain factor. 


Theoretical framework 

Sound characteristics distinguishing Czech and Spanish include syllabic structure and 
consonant clusters. The primary difference lies in the number of consonants within a sin- 
gle syllable, their frequency, and phoneme combinatory aspects including constraints in 
specified positions. In Czech, for example, some sonorants (mainly /1/ and /r/) may form 
a syllabic nucleus, unlike in Spanish. 

Czech and Spanish syllables tend to be open. In both languages, the predominant syl- 
lable type is the CV type, which occurs in 59.76% in Czech (Tésitelová et al., 1985, p.149) 
and in 55.81% in Spanish (Guerra, 1983, as cited in Quilis, 1993, p.370). However, a significant 
difference is the number of consonants within one syllable. In Spanish, onset and coda are 
usually formed by one, rarely two consonants, and thus the CCCV syllable type, for in- 
stance, containing three consonants in onset, is not present in Spanish, unlike in Czech in 
which it has a frequency of occurrence of 0.72% (Tésitelová et al., 1985, p.149). CCVCC is 
the longest Spanish syllable type - occurrence of 0.01% (Guerra, 1983, as cited in Quilis, 
1993, p.370), the same syllable type in Czech occurs with the higher frequency of 0.26% 
(Tésitelová et al., 1985, p.149). Based on the analysed texts, the longest Czech syllable type 
is CCCVCC (ibid; Kucera & Monroe, 1968, p.47) with frequency of 0.08% (Tésitelova et 
al., 1985, p.149); however, it is possible to find samples even for types with longer consonant 
sequences (Bican, 2013, p.122) and the number of consonants in the onset may increase by 


including a non-syllable preposition. 
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In Czech, there are no such restrictions for one-segment or multi-segment onset and 
coda, as in Spanish. (Ludvíková & Kraus, 1966; Kucera & Monroe, 1968; Bičan, 2013) In the 
Spanish CC-onset in the initial word position there can be only combinations of obstruent 
and sonorant, namely 12 clusters /pr, br, fr, tr, dr, kr, gr, pl, bl, fl, kl, gl/ (Saporta & Olson, 
1958, p.263; Quilis, 1993, p.381; Rios Mestre, 1999, section 6.2.2.2.) and /tl/ in words of 
Nahuatl origin (Quilis, 1993, p.381; RAE, 2011, p.302-303). The loanwords containing initial 
/s/ followed by another consonant are adapted by a prothetic vowel, e.g., escena (RAE, 2011, 
p.305). In loanwoards, e.g., from Latin or Greek, other consonant groups such as cn-, gn-, 
mn-, pt- and ps- may occur in the initial position of the word. However, in Spanish, the 
groups remain preserved only in written form, the pronunciation is simplified (the first 
consonant is elided). Simplified forms appear even in written form as parallel variants, e.g., 
gnomo - nomo, psíquico - siquico, ptolemaico - tolemaico (RAE, 2011, p.304-305; RAE, 2021). 

For the Spanish coda -C at the end of a word, studies present a limited set of phonemes 
as well. It is the loanwords that are the source of new codas including -CC in the word final 
position, otherwise unusual in Spanish (Saporta & Olson, 1958, p.266), e.g., golf or vals 
(RAE, 2011, p.315). However, there is a tendency towards simplification in pronunciation 
too. Parallel variants may occur, e.g., cinc/zinc is pronounced both with a full coda or 
without a final consonant, or only simplified pronunciation is used, e.g., robots with elision 
of /t/. (RAE, 2011, p.315-317). 

The sequence of consonants may be increased by the contact of a coda and an onset in 
the medial position of a word. In Spanish, changes occur in those cases as well. For exam- 
ple, in the combination bs + consonant, /b/ is usually weakened or skipped. According to 
RAE (2011, p.320-321), nowadays it is possible to omit b not only in pronunciation but even 
in writing and the simplified spelling is primary; comp. e.g., oscuro - obscuro, sustantivo 
- substantivo, sustituir - substituir (RAE, 2021). The cause is mainly the syllable boundary. 
Unlike in Czech, where the position of the syllable boundary may vary to some extent 
(Palkova, 1997; Sturm, 2018), in Spanish there are precise rules governing this process; the 
main rule is the permission or restriction of a fixed combination of sounds within a sylla- 
ble. (Quilis, 1993, pp. 368-370; Rios Mestre, 1999, section 6.2.3.) For example, the 12 clusters 
defined for the initial position of a word (see above) cannot be split within a word (Quilis 


& Fernandez, 1979, p.140). 
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3. Methodological framework 


3.1. Target consonant cluster set 

In the first step, we determined a set of target consonant clusters. Since the aim was not to 
test the pronunciation of individual segments, but consonant groups as a whole, the con- 
dition was determined that consonants absent in the Spanish language would not be 
included in the consonant cluster set used for this research. Otherwise, any potential dif- 
ficulties of speakers might be primarily related to the pronunciation of that segment, not 
to the combination of the given cluster as a whole. For example, clusters with a specific 
Czech vibrant fricative /r/ or with a laryngeal consonant [fi] (in Czech, unlike most lan- 
guages, voiced), none of which have equivalent in Spanish, were not tested. 

The starting point was a set of consonant clusters occurring in Spanish. Based on Qui- 
lis (1993), RAE (2011), and Cermak (2015), those consonant clusters were selected, whose 
pronunciation may differ between Czech and Spanish or those that may present difficulties 
for L2 Czech speakers with Spanish as L1 because of position restriction etc. Due to a large 
number of such clusters, another selection procedure followed. The set was limited to 
two-component clusters with an initial consonant [s], with an initial consonant [p], name- 
ly [pt], [ps], [pn], and the cluster [gn]. Three-component clusters [pst] and [psk] were also 
included. Those clusters were then systematically supplemented based on Czech language, 
e.g., by combinations containing voiced/voiceless counterparts. 

In the S + consonant type, we tested all two-member combinations existing in Czech, 
the first member of which is the consonant [s] (with the exception of less common or 
problematic combinations such as [sf] or [stf]). Those items were [s] + voiceless stops [p], 
[t], [c], [k], fricative [v], nasals [m], [n], [n] and oral sonorants [1], [r], [j]. 

Due to the use of the nasal palatal [n] in conjunction with [s], we decided to test the 
combination ofthe nasal [n] with other initial consonants already used, i.e., the cluster [pp] 
and [gn] were added. 

Due to the fact that in Czech the voicing opposition plays an important role, four more 
clusters [bn], [bn], and [kn], [kn] were added as voiced and unvoiced equivalents to the 
existing clusters [pn], [pn], and [gn], [gn]. In these nasal clusters, the voicing property of 
obstruents should be preserved. 


Altogether, 23 clusters divided in 6 types were included in the experiment (see Table 1). 
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Table 1. Set of consonant cluster types. 


2-consonant - consonant [s] combined with defined unvoiced obstruents, sonorants and [v] (S+cons) 
clusters + [ps] 


* [pt] 
* obstruent bilabials [p], [b] and velars [k], [g], each combined with nasals [n] and [y] 


(O+nas) 
3-consonant -° [pst] 
clusters + [psk] 


Note: In the following text, capital letters, i.e. [ps] PS are used, and palatals [n] and [c] are 


written as N and T. 


. Target words set 


A set of words containing the observed consonant clusters was created. For each consonant 
cluster, the position in the word selected for the test was established: initial - I, medial - M 
and final - F. The purpose of the experiment and the ideal number of tested units were 
taken into account. 

In the S+cons type, we focused on the initial position, because that is where Spanish native 
speakers use a prothetic vowel, which is a significant difference compared to Czech. The orig- 
inally determined nasal clusters PN and GN were tested in I and M positions. The groups with 
voicing counterparts and palatal [n] were tested only in M position. For other types PS, PT 
and PST, PSK, an attempt to find a representative for all three positions was made. 

The Index Database (Databáze hesláfú) was used for searching suitable words. It con- 
tains over 900,000 entries from 14 Czech written sources with items from both older 
dictionaries and new vocabulary occurring in newspapers or magazines. In the process of 
creating the word sets, it was found that we could not always fill a defined I / M/ F position. 
The PST, for example, appeared only in positions M and F. For some clusters, although 
lexemes were available, their occurrence was either restricted to scientific terminology, or 
very limited in general frequency. For that reason, the GN cluster was eventually excluded 
from the test. Regarding the type and position, 31 subgroups were defined. 

To ensure that any errors would be a matter of personal pronunciation and not a case of 
ignorance of orthoepic rules, in S+cons, only words in which the graphic form and pronun- 
ciation of the target cluster did not differ due to voicing assimilation, as in the word zkousky 
[skoufki] (En. exams, Sp. exámenes), were tested eventually. The need to perform voicing 


assimilation occurs in our set in less frequent groups: a) in all five representatives of PST, in 
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graphic form of bst, e.g., obstarávat (En. to procure, Sp. procurar), b) once in PT in the M 


position (drobty (En. crumbs, Sp. pizcas) vs. poptávka (En. demand, Sp. demanda). 


Table 2. Set of consonant clusters regarding word position with examples. 
CC - consonant cluster, IMF - position in a word: | - initial, M - medial, F - final, N - number of words per 
cluster, T - [c], N- Ep], fem. - femininum, n. - noun, sust. - sustantivo. B - underlined - a graphic form 

of a consonant cluster does not correspond to the pronunciation, + the form of a Czech example is not a 


nominative case. 


CG IMF N Example Pronunciation In English In Spanish 
SP 2 spekulace [spekulatse] speculation especulación 
ST 2 studentka [studentka] student (fem.) la estudiante 
St 2 stěží [sce3i:] hardly apenas 
SK 2 skupina [skupIna] group grupo 
SV 2 svobodu [svobodu] liberty+ libertad+ 
SM 2 smutna [smutna:] sad (fem.) triste (fem.) 
SN 2 snad [snat] perhaps quizas 
SÑ 2 sňatek [snatek] marriage matrimonio 
SL 2 slunce [sluntse] sun sol 
SR 2 srazila [srazila] (she) crashed chocó (fem.) 
SJ 2 sjezdu [sjezdu] exit (n.)+ salida (Sust.)+ 
PS 6 psala [psala] (she) wrote escribió (fem.) 
psychologie  [psixologlje] psychology psicología 
PS M 7 napsaly [napsal] (they) wrote (fem.) escribieron (fem.) 
kapsičky [kapsitfkq] pockets bolsillos 
PS F 2 kolaps [kolaps] collapse colapso 
PSK M 3 Lipska [Ipska] Leipzig+ Leipzig+ 
PST M 4 substanci [supstantsI] substance+ sustancia+ 
F 1 zábst [za:pst] to freeze tener frío 
PT | 3 ptát [pta:t] to ask preguntar 
M 3 koncepty [kontsept1] concepts conceptos 
E 3 recept [retsept] recipe receta 
PN | 3 pnula [pnula] twined (fem.) se enroscó (fem.) 
M 3  oslepne [oslepne] (it) will go blind se quedará ciego 
PÑ M 3 trapně [trappe] embarrassingly embazarosamente 
BN M 2 drobné [drobne:] change (n.) cambio (sust.) 
BN M 2 bezchybně [besxrbne] flawless sin falta 
GN l í gnómon [gno:mon] gnomon gnomon 
M 3 ignorovat [Ignorovat] to ignore ignorar 
KN M 2 péknou [pjeknou] beautiful (fem.)+ bella+ 
KN M 2 barokni [barokpi:] baroque barocco 
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A list of words containing the selected clusters in defined positions was created. We 
assumed that a coherent text would be a better disguise for the target phenomenon and 
that a story would be easier to read than, say, single sentences without wider context. In 
order to examine as many items as possible while avoiding excessive text length, the fol- 
lowing numbers of words were used: a) two words for each S+cons cluster, b) regarding 
PS, six clusters in I and 7 in M (and two in F) to obtain more items for comparison, c) for 
remaining clusters, an average of 2-3 words per cluster and position. The set of words 
examined also depended on the number of suitable candidates. In cases where the number 
of words of a certain type of cluster was insufficient in any of the I, M, F positions, we tried 
to increase the representation of the cluster in another position, e.g., the PST cluster was 
represented only by one word in E, but 4x in M. Where possible, a loanword was used for 
the given cluster and the position. Each word contained just one target consonant cluster, 
with the exception of two words - skeptiki (En. sceptics, gen., Sp. escépticos, gen.), skepse 
(En. scepticism, Sp. escepticismo) containing two examined consonant clusters. Table 2 
presents the set of defined clusters according to their position and the samples of target 
words. A total of 73 different words (containing 75 target consonant clusters) were selected: 
47 % words in I, 45 % words in M and 8 % in F. The most numerous were disyllabic (40.0%) 
and trisyllabic words (30.7%), then 4-syllabic (12, 16.0%). Monosyllables were represented 
by seven words and 5- and 6-syllabic items were attested in three cases altogether. A text 
- story (838 words long) was created. In order to prevent the spread of a consonant cluster 
across a word boundary, the I-cluster was preceded by a vowel, and a vowel followed the 


F-cluster, or it was assumed that a pause would be realized. 


Speakers 

The group of participants consisted of 13 speakers with Spanish as L1 who were either from 
the first author’s circle of acquaintances or responded to requests on social media, through 
which the community of foreigners living in Prague was addressed. Women showed sig- 
nificantly less interest, which resulted in groups not being balanced by sex: 10 males and 
3 females were eventually available for the experiment. There were 9 Latin Americans from 
six different countries and 3 Spanish, each coming from different cities in Spain. The length 
of stay of speakers in the Czech Republic (CR) ranged from 1.5 years to 9.5 years, for most 
speakers it was a continuous stay. Five speakers completed a one-year preparatory course 
in Czech, then they studied in the CR at technical universities. One speaker stated the 
study of Czech lasted 1.3 years. For other speakers, the study of Czech was shorter - from 


two weeks to six months, with the characteristic that those studies took place several years 
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ago, and in two cases it was self-study; the speaker declaring two-week study had lived in 
the CR for 1.5 year. Speakers also differed in the degree of use of Czech or the intensity of 
contact with the Czech environment - some speakers used Czech at work or in commu- 
nication with their family or friends, while others did not use Czech in their daily life at 
all. With some exceptions, however, all indicated English as their primary language for 
communication. There was one more speaker, who might be considered bilingual. His 
father was from Peru and his mother was Czech. This speaker had a Czech and Spanish 
high school diploma and at the time of recording he was currently studying at a Czech 
university. According to his words, however, he started speaking Czech at a preschool age 
and he had not always felt confident in Czech in some respects. Throughout his life, he had 
been alternating between both Czech-dominated and Spanish-dominated environments. 
All speakers interested in participating were recorded including the bilingual one as his 


speech showed similar features to the rest of the speakers (see Table 3). 


Table 3. Information about speakers. 
F - female, M - male, es - Spanish, pt - Portuguese, cz - Czech, CR - Czech Republic, y./m./w. - year, 
month, week. 


Speaker F/M Country L1 Stay in CR Study Czech Primary language 
(in years) (+University study) used in daily life 

S1 F Paraguay es, pt 8.5 1 y. (+6 y.) es, CZ 

52 F Honduras es 915 Ty. (+5 y.) en 

53 M Bolivia es 8.5 Ty: (+5 y.) en, Cz 

S4 M Peru es 8.5 TY ESY) en 

55 M Colombia es 8.5 Ty. (+4 y.) en 

S6 M Peru es 2 10m. en 

57 M Spain es 7 6m. en 

S8 M Spain es 3 6m. en 

S9 M Honduras es 25 3m. en 

S10 M Spain es 1.5 aim, en 

S11 F Colombia es 4.5 1m. en 

$12 M Ecuador es 25 2w. en 

513 M Peru/CR es, CZ - - CZ, es 


3.4, Recording procedure 
Reading of the Czech story by the 13 Spanish speakers were recorded individually in a 
sound-treated and sound-proofed room (AKG C 4500 B-BC microphone, sample rate 
32 kHz, 16-bit depth). Their main task was to read the text. In a short introductory dia- 


logue, relevant information regarding speakers’ personal data and exposure to Czech lan- 
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guage was gathered. The form of a dialogue was preferred to a questionnaire in order to 
capture the circumstances of each individual speaker. 

Before recording, each speaker had been given time to get accustomed to the text. All, 
but one speaker, were ready in less than 10 minutes. Only 4 speakers asked for a translation 
of some less frequent words. No speaker asked for guidance in pronunciation. During the 
recording, one of the authors was present in a soundproof room to reduce stress of speak- 
ers due to the unknown environment. Before reading the actual text, speakers introduced 
themselves shortly. This was done in order to ensure that the speaker started reading the 
text in their standard voice and got accustomed to being recorded. Based on an informal 
discussion following the recording, none of the speakers were able to identify the topic of 


the experiment. 


Perception analysis 

Perception analysis supported by acoustic representation was performed using Praat soft- 

ware (Boersma & Weenink, 2019). Target words were transcribed, and the following pro- 

cedure was executed: 

1 Presence or absence of intonation juncture between the target word and adjacent words 
was examined. 

2 The fluency of the target word as a whole was assessed on the 4-point scale: o meant 
fluent pronunciation with 1-3 signalling degrees of dysfluency. Only words with o rating 
were processed further. 

3 Intelligibility of words thus determined was assessed (5-point scale). 

4 Further analysis concerned the target consonant clusters was performed in multiple steps. 

a It was determined whether the cluster was pronounced correctly or incorrectly. During 
the analysis, cases emerged in which the decision-making was uncertain. Since this 
group was not large, we opted for the following solution: based on repeated listening, 
a consonant cluster with little inaccuracy was rated as correct, while clusters with 
greater inaccuracy were rated as incorrect. 

b This rough categorization disregarded the fact that some pronunciation variants were 
less intelligible than others; therefore, we proceeded to the subsequent evaluation of 
that aspect (5-point scale). 

In case of incorrect realization, 


c the type of sound changed and d) affected segments were determined. 
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The following sound changes were studied: substitution, elision, prothesis, epenthesis, 
metathesis, lengthening of the consonant, weakening. Based on the analysis, another type 
was added, namely splitting, i.e., the splitting of a word cluster into two parts. In some 
consonant clusters, multiple sound changes co-occurred. In cases where sound changes 
affected different segments, these changes were accounted for separately, e.g. [barokni:] > 
[baro(k)ni:] as weakening of [k] and substitution [n] > [n]. Another typical example was 
the addition of a prothetic sound to a cluster and affecting a consonant simultaneously. The 
category of accumulation was newly introduced for cases where a consonant was affected 
by several sound changes [prokopske:fio] > [prokops:(J)skefño], or when it was not possible 
to clearly determine the type of sound change, e.g. [snatek] > [stak]. 

In the following analysis we use the data obtained in step 2 and present the results of 


phase 4a, 4c and partially 4d. 
Data analysis 


Correctness rate: overview 

The resulting set of 975 target clusters was analyzed (75 words x 13 speakers): 7.0% of target 
words were affected by slips of tongue, dysfluency (see step 2 above) or repetition and those 
items were excluded from further analysis, 65.7% of consonant clusters were pronounced 
correctly, 27.3% of them incorrectly. 

Concerning the position within a word, the I, M, F positions did not differ in the num- 
ber of excluded cases, ranging from 6.4% to 7.2%. The correctness rate in M and F was 
similar (M: 70.1%, F: 69.2%), in I it was a little bit lower (60.9%). 

Inthe following sections 4.2 and 4.3, the results presented have already all the above-men- 


tioned exclusions. 


Correctness rate: consonant clusters 
In this part, the results regarding consonant clusters are presented. Fig. 1 shows the number 
of correct variants of each cluster type (for types see section 3.1). Each type achieved at least 
60% of correct realizations. The S+cons and O+nas types narrowly crossed this line. The 
greatest correctness rate was indicated in the PS and PSK types (about 85%). The PT and 
PST types were situated roughly in the middle of the range. 

Nevertheless, these summarizing results may disguise differences within cluster types 


according to their phonetic composition or within the same consonant cluster according 
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to the positions I / M / F. Fig. 2 provides the comparison of correctness rate for consonant 
clusters in which different positions in the word were tested. 

For the PS and PT types, all three positions were tested. The PS type achieved a very high 
correctness rate in M and F (slightly above 90%); the correctness rate was lower in I, but still 
very high (almost 80%). For PT, the correctness rate differed for all positions, decreasing in 
the direction I- M — E the difference between I and F is about 20% (I: 86.1%, F: 64.9%). 

In the other three consonant cluster types, only two positions were tested. The biggest 
difference between the positions was seen in the PN type, where the realization in M was 
very successful (86.8%). On the contrary, in I, incorrect realizations prevailed (the number 
of correct variants was only 34.3%). In another type with nasal GN, the M position was as 
successful as in PN (86.1%). In I, the correctness rate was slightly lower compared to M, 
however, unlike in PN, the correctness rate of M in GN was still relatively high (75.0%). 

The three-segment cluster PST, similarly to PT, indicated a lower correctness rate in F 
compared to M. For PT, the difference between these positions was about 10%; for PST, it 
was even about 20% (M: 81.4%, F: 60.0%). The number of correct realizations of PSK, which 


was tested only in M, was similar to PST in this position (86.5%). 
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Figure 1. Correctness rate of consonant cluster types (in %). 
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Figure 2. Correctness rate of consonant clusters tested in two positions in the word as minimum (in %). 
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Figure 3. Correctness rate of S+cons clusters tested in the initial (1) position in the word (in %). 
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Figure 4. Correctness rate of O+nas cluster types tested in the medial (M) position in the word (in %). 
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Fig. 3 shows all two-segment clusters belonging to the S+cons type which was tested in the 
I position. The correctness rate of pronunciation was very high for clusters ST and SP 
(between 80% and 90%). In the next band (between 70% and 80%) there were SN and SK 
clusters. The limit of 60% was exceeded by three more clusters of the S+cons type — ST, SL 
and SM. The S+cons clusters can therefore be divided into two groups. There were seven 
clusters with the correctness rate of over 60%, representing four tested combinations of 
two obstruents (SP, ST, SÍ, SK), two combinations with nasals SN and SM and a combina- 
tion with lateral SL. The remaining four clusters did not reach even 50% of correct variants 
- these were the remaining combinations with sonorants SR, SN, SJ and the cluster SV with 
fricative [v]. 

Fig. 4 compares the correctness rate of O+nas clusters in the M position, i.e., the com- 
binations with palatal [n] (occurred only in this position in our set) and the combinations 
with alveolar [n] (tested in the I and M positions, see above). As we have already shown in 
the previous explanation, the correctness rate of pronunciation was very high for clusters 


PN and GN in the M position (between 80% and 90%). Unlike them, the correctness rate 
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of BN cluster was very low (50%) and the rate of KN is situated roughly in the middle of 
the range (70%). 

The PN type was the only combination with a nasal palatal in which the number of 
correct realizations exceeded 60%, for KN the number of correct realizations was around 
half of the cases, for BN it did not even reach 40% (GN was not eventually included in the 
set, see section 3.2). For all pairs of clusters N / Ñ, the number of correct realizations was 
higher for the cluster with alveolar [n] than for the cluster with palatal [n]; the highest 


difference was in the pair PN — PN (24%). The same observation was made for clusters SN 


- SN (32%) belonging to S+cons type. 


Sound changes 


Sound changes: overview 


In this section, we provide an overview of sound changes that occurred in the set of incor- 


rect pronunciation (step 4c, see 3.5). 


Table 4. Sound changes according to their frequency. + the form of a Czech example is not a lemma. 


Type of sound Frequency Example, correct Example, real In English In Spanish 
changes (in %) pronunciation pronunciation 
substitution 44.3 Ignorovat] —> Ixnorovat] to ignore ignorar 
[progno:zu] — [prokno:zu] prediction+ pronóstico+ 
sletfnu] >» [fiefnu] young lady+ señorita+ 
elision 22.0 [supstantsI] t [sustantsI] substance+ substancia+ 
psisko] > sIsko] dog perro 
prothesis 20.2 [statfilo] > [estatfilo] to be enough+ ser suficiente+ 
srovnala] > esrovnala] to compare+ comparar+ 
weakening 20 [krepsilonem] — [kre(p)silonem] crepe+ crepé+ 
epenthesis 2.1 pneumatika] > psneumatika] tyre neumático 
lengthening 17) [psem] > [ps::em] dog+ perro+ 
metathesis 0.7 sjezdu] > sej3du] exit+ salida+ 
accumulation She) [prokopske:fio] >  [prokops:(fjskefio] Prokop+ (adj.) Prokop (adj.) 
splitting 2.8 popta:fka] > pop tavka] demand demanda 


Within the whole set, a multiple occurrence of incorrect realisations within the consonant 


group occurred in 19 cases. There was a co-occurrence of two changes, with the exception 
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of one case with three changes. The total number of sound changes was thus 20 higher than 
the number of incorrect implementations. 

Among the types of changes, substitution was the most frequently represented (44.4%). 
The second most numerous were elision (22.0%), and prothesis (20.3%); their frequency 
was therefore about half that of substitution. The frequency of other types (weakening, 
epenthesis, lengthening, metathesis, and accumulation and splitting into two stress groups) 
did not reach 5% (see Table 4 for more details); their total share in the number of sound 


changes was 13.3%. 


4.3.2. Sound changes in types of consonant clusters 
In this section, the distribution of sound changes in consonant cluster types is presented. 
Based on previous findings, three most common types of changes, i.e., substitution, elision 
and prothesis, have been distinguished; the remaining changes are included in the group 
“others”. 

Fig. 5 shows two types of values for each type of consonant clusters. The first value 
represents the number of incorrect variants. Other values indicate the distribution of sound 
changes for a given cluster type. 

It is obvious that the types of clusters differed in the types and the amount of sound 
changes they evoked. The most visible finding was that prothesis occurred only in S+cons. 
For this type, prothesis covered the entire half of all sound changes (51.8%). Another rela- 
tively common sound change in this type was substitution. However, the distribution of 
sound changes varied among single clusters of this type (see below). 

Substitution was the most common sound change for O+nas, where it applied to % of 
all sound changes (67.6%). One-fifth of the sound changes in this type was elision. How- 
ever, almost all the instances of elision appeared only in the I position of PN, which also 
contained a lot of incorrect realizations overall (the position I of GN was rather successful). 
In M, nearly all incorrect realizations were the matter of substitutions, regardless of the 
number of incorrect forms, or whether the cluster contained N or N. 

Elision covered more than half of the sound changes for PS and PT (53.8%, 57.7%). 
However, in the case of PS it was elision in I, and in the case of PT the cluster in F was 
simplified. PS and PT types, compared to other cluster types, had relatively more sound 
changes included in the group “others” (for PS about 30%). These changes occurred main- 
lyin M. 
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The figure does not include the types PST and PSK, for which there were only 12 and 5 
sound changes respectively; in both cases, it was mainly a substitution, in M of PST elision 


as well. 


80 
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E % Incorr from included E % S m %El m % Others B%P 


Figure 5. Distribution of sound changes within consonant cluster types (in %). Incorr - incorrect realizati- 
ons, S - substitution, El - elision, P - prothesis. 

Fig. 6 shows the number of incorrect realizations and the distribution of sound changes in 
consonant clusters of the S+cons type (the absolute values of). In two of the four least 
successful clusters SÑ and SV, there was a considerable number of substitutions; prothesis 
reached about half of the cases there. On the other hand, in the four most successful clus- 
ters, which were three obstruent clusters SP, ST, SK and SN, substitution did not occur at 
all (except for one occurrence in SN). For the remaining clusters, the number of instances 
of prothesis and substitution were either comparable or the number of substitutions was 
lower. Elision occurred only individually; changes included in the “others” were also lim- 


ited and occurred in the least successful clusters with a sonorant. 
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Figure 6. Distribution of sound changes in the S+cons type (absolute values). 
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4.4 Success rate and sound changes in individual speakers 

Concerning individual speakers (see Table 5a), the number of correct forms ranged from 
44.0% to 84.0%, while the number of incorrect forms ranged from 12.0% to 52.0%. Speak- 
ers also differed in the number of excluded cases that ranged from 1.3% to 13.3%. The 
number of excluded items did not correlate with the number of correct realizations (r=0.13, 
using Spearman’s coefficient). 

Table 5b indicates the number of incorrect realizations for each speaker and the distri- 
bution of sound changes. In the speech of speakers with fewer than 25 incorrect items (Y 


of all target clusters), it was substitution that prevailed, except S13, who tended to elision. 


Table 5. a) Number of correct and incorrect realizations and excluded clusters regarding speakers (in %). 
b) Number of incorrect realizations and number and type of sound changes regarding speakers. Corr / 
Incorr - correct / incorrect realizations, Ex - excluded items, S - substitution, El - elision, P - prothesis. 


a) b) 

Speaker Corr Incorr Ex Incorr S El P Others Total 
S1 80.0 12.0 8.0 9 6 1 0 2 9 
S2 VES) 188 188 10 7 2 1 1 11 
53 77.3 113.3 9.3 10 5 3 2 0 10 
S4 573 41.3 es 31 8 11 12 1 32 
S5 53.3 34.7 12.0 26 19 3 0 Y 29 
S6 69.3 252 53 19 10 4 1 4 19 
S7 62.7 33.3 4.0 25 16 7 1 2 26 
S8 538 41.3 53 31 117 4 8 6 35 
s9 69.3 20.0 10.7 15 8 4 1 4 17 
S10 84.0 14.7 (bs) 11 6 2 0 4 12 
S11 50.7 40.0 9.3 30 11 8 14 1 34 
$12 44.0 533 2 40 13 8 18 4 43 
$13 78.7 13.3 8.0 10 1 6 0 10 

Sum 267 127 63 58 39 287 
% 443 220 202 13.6 100 


A more detailed analysis was applied to speakers with at least 25 incorrect variants. These 
were six out of 13 analysed speakers (marked in grey in the Table 5a). The ratio between 
correct, incorrect and excluded cases in these speakers is clearly shown in Fig. 7. In one of 
these speakers, the number of incorrect realizations prevailed over the correct ones (S12 
53.3% of incorrect variants). There were speakers with both the low number of excluded 
items (S4 1.3%) and the higher number of excluded items (S5 12.0%). The distribution of 


sound changes was to a large extent variable (see Fig. 8). Speaker S12 and S11 manifested 
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the largest number of prothesis (more than 40%). Unlike them, S5 had no prothesis, but 
dominated in the number of substitutions (65.5%); similar number of substitutions and 
almost no instance of prothesis were observed by S7. Speaker S4 applied elision to a larger 
extent than most of the others (34.4%). Speaker S5 had a noticeably higher number of 
“others” types of sound changes compared to most other speakers (24.1%). Possible influ- 
ence of the factors we obtained (duration of stay in the Czech Republic, studying of Czech, 


etc.) on the correctness rate are discussed in the next section 5. 


100% 
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50% 
57.3 3 3 
25% 53.3 53. 50.7 an 
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Figure 7. Number of correct (Corr) and incorrect (Incorr) realizations and excluded (Ex) items (in %) regar- 
ding six mostly unsuccessful speakers. 
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Figure 8. Distribution of sound changes regarding six mostly unsuccessful speakers (in %). P - prothesis, 
El - elision, S - substitution. 


Discussion 
Pronunciation of defined consonant clusters was proved to present difficulties for Spanish 
speakers, including the advanced ones. On average, % of realizations were correct, Ya con- 


tained errors, slips of tongue or dysfluency. It seems that the initial position was slightly 
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more difficult, however compared to M and F positions, the difference was not so remark- 
able. Nevertheless, we need to bear in mind that the clusters were not tested in a balanced 
way in I, M, E 

The correctness rate among the cluster types and within the types varied considerably. 
There was a tendency for clusters containing only obstruents to be more successful. This 
was evidenced by the number of correct realizations of both disyllabic clusters PS and PT, 
clusters of /s/ + stop — SP, ST, ST, SK, as well as three-syllable clusters PST and PSK. Even 
the least successful obstruent clusters achieved a correctness rate of over 60% (with the 
exception of the SV cluster, see below). Numerical values also indicated the tendency: 
clusters consisting only of obstruents had a correctness rate of 81.0%, clusters with nasals 
(O+nas and relevant clusters of S+cons type - SM, SN and SN) 62.0% and clusters contain- 
ing oral sonorants SJ, SL, SR achieved the lowest correctness rate of 52.1%. 

The SV cluster, indicating the lowest correctness rate of all the clusters tested - only 
36.4%, was not included in the calculations above. In Spanish, [v] can be heard for example 
in the word afgano as the voiced variant of /f/ (RAE, 2011, p.186). In Czech, it functions as 
phoneme /v/, and phonetically, it is classified as a fricative, however, due to historical de- 
velopment, it behaves like a sonorant in certain positions. For example, it does not cause 
voicing assimilation of the previous unvoiced obstruent. So, in the SV cluster, [s] remains 
voiceless in Czech. Both analysed words containing SV, svátecní and svobodu, achieved the 
high number of incorrect forms (14/22). Substitution, namely sonorization [s] > [z], was 
very frequent (9/14). Prothesis was also relatively common (6/14), with one speaker com- 
bining both of these sound changes within a word. The incorrect realization of the SV words 
was caused by the application of the incorrect orthoepic rule and the sound change typical 
of the S+cons clusters following the structure of the Spanish syllable. 

It was indicated that correctness rate may be influenced by the position of the cluster 
in the word. In I, M and E, two clusters PS and PT were tested. The correctness rate of PS 
was very high in all positions, in M and F of about 90%, in I slightly lower. In PT, the ten- 
dency was reversed and the difference between I and F was more evident: the I position 
was the most successful - 86%, F the least successful - 65%. Elision, namely that of [p], 
obviously prevailed among the incorrect realizations of PT and PS. 

In the PT type, three words were tested in F. Two words manuskript and polosept con- 
tained a greater number of incorrect realizations (14/24). This may be because these are 
trisyllabic words, less frequent, and the Spanish equivalent of manuscrito no longer con- 
tains the consonant cluster pt. The word recept, on the contrary, was relatively successful 


(incorrectness 3/13). It is a quite common disyllabic word; in Spanish, in addition to the 
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word receta, there is also recepta, which might encourage the preservation of the consonant 
cluster in pronunciation. This parallel could also be seen in tested PS words in F biceps and 
kolaps with a large number of correct realizations. Both words are loanwords and in Span- 
ish spelling biceps, colapso they have retained the consonant cluster. 

For PS, a potential difference may be found between the pronunciation of native and 
loanwords in I. For the latter, the tendency towards elision seems stronger. In the words 
psychologie and pseudogoticky, where it is possible to omit p in Spanish equivalents in 
writing as well, 8/22 incorrect realizations occurred. For native vocabulary, e.g., psi, psala, 
there were only 7/48 incorrect realizations. However, the word length might have affected 
pronunciation as well. 

In I of PN, with a considerable number of incorrect realizations (23/39), this difference 
was not detected. The speakers pronounced both loanwords pneumatika, pneumatiky, 
whose Spanish counterpart is spelled only without p - neumático, and the native word 
pnula incorrectly. PN was also another example of a cluster with a significant difference 
between positions — unlike in I, the speakers were more successful in M (only 5/39 incorrect 
forms). In addition, substitution applied mostly in M, opposite to I where elision prevailed 
in both PS and PT. 

An interesting tendency was noted regarding nasals — for the respective pairs PN - PN, 
BN - BN and KN - KN tested in M, the cluster containing an alveolar was always more 
successful than the one with a palatal. This applied not only to stop + nasal clusters, but 
also to SN — SN, for which the difference within the pair was most considerable. However, 
a more detailed word-level analysis will be required to account for possible factors. For 
instance, in the words snubni and barokní, substitutions [n] > [n] was applied frequently. 
The impact of spelling on pronunciation cannot be excluded as a factor: In these words, 
the grapheme n is the part of the digram ní, which is pronounced as [pi:], not [ni:]. 

Regarding sound changes, substitution, elision and prothesis represented almost 90% 
of them. Substitution, which affected all analysed clusters, was the most frequent. This may 
have been caused by the fact that the category of substitution is very extensive and may 
include different types of processes (voicing assimilation, articulatory assimilation both in 
place and manner, etc.). In BN/BN, KN/KN and GN in M, substitution was obviously the 
dominant sound change, as it occurred at least in % of realizations. Examination of the 
substitution types may help explain the low correctness rate of clusters containing /b/. In 
accordance with Spanish rules, Spanish Li speakers often weakened the closure and pro- 
nounced the sound as an approximant or a fricative. The occurrence of substitution was 


also significant for PN in M (see above) and S+cons (about Y of sound changes). In the 
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latter, the type of substitution may contribute to explaining the lower correctness of some 
clusters as well. For example, [s] followed by a sonorant was quite often assimilated to [z], 
similar as in SV (see above). 

Elision appeared in both disyllabic and trisyllabic clusters, beginning with [p]; it was this 
consonant that was mostly elided. See the discussion on PS, PT and PN above. Unlike most 
of the other sound changes, prothesis was present only in S+cons, and it accounted for more 
than half of all changes in this type. This may be due to the /s/ + consonant group being wide- 
ly spread in Spanish but not appearing as an onset at the beginning of a word. In this position, 
it is standardly divided into two syllables adding a vowel prior to the /s/ + consonant group. 

The range of correctness rate in terms of speakers was relatively wide, which was not 
so surprising, given the composition of the speakers group and the interview data. Based 
on the correctness rate, the speakers were divided into two groups. Although the research 
did not focus on the possible influence of extralinguistic factors, we wondered if there were 
some common features within the groups. The obtained data did not allow for greater 
generalization; however, some findings may be presented. 

Of the 13 speakers, only four regularly used Czech on a daily basis (S1, S3, S6, S13) with 
two of them working in Czech environment (S1, $3); a total of three mentioned Czech as 
one of the two languages they speak mostly (S1, S3, S13). All four speakers belonged to the 
group with higher correctness rates. However, as the example of the S13 speaker showed, 
active use, supported here by partial school attendance in Czech, was not a guarantee of 
mastering pronunciation at the highest level. Although this speaker mentioned Czech be- 
sides Spanish as his mother tongue, he did not deviate from other speakers with low fre- 
quency of incorrect forms. 

Three speakers from a more successful group shared the experience ofa one-year Czech 
preparatory course and subsequent study at a university in Czech (S1, S2, $3). However, 
even studying in Czech is not in itself a guarantee of a correct pronunciation, unless sup- 
ported by other factors. Namely, speakers S4 and S5 also went through the same type of 
course and university, but practically didnt use Czech afterwards and, based on the anal- 
yses, they belonged to a less successful group. The same may be said about the period of 
stay in the Czech Republic — out of the whole group of respondents, all five named above 
stayed in the Czech Republic the longest (if S13 is omitted), around 9 years, but the correct- 
ness rate was different. 

Speaker S10 is a very interesting case. He made a comparable number of errors as re- 
spondents who had graduated from a Czech university and used Czech regularly. Howev- 


er, S10 moved to the Czech Republic only a year and a half before recording and had only 
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three months of self-study. He mentioned that he loves literature, writes stories himself, 
and although he did not have particularly intense contacts with the Czech environment, 
he tried to listen to Czech as much as possible on the street and in the media. 

Thus, it seems that the active use of Czech or an active approach and probably motiva- 
tion are likely to be beneficial. Speakers in the less successful group mentioned English as 
the language of communication, some barely associated with Czechs and did not use Czech. 
When they did use it, it was a less frequent use in the city, listening to TV / radio or in 


meetings with Czech extended family. 


Conclusion and perspectives 

The presented experiment brought useful findings that can be followed up. Within the 
already analysed material, it would be useful to compare in more detail the realization and 
sound changes of individual words. Due to the length of the recordings, the already carried 
out analysis of 975 units could be expanded up to double in the framework of the current set 
of consonant clusters; however, because of unintentional occurrences, the balance of all clus- 
ters and positions is not guaranteed. Undoubtedly, it will be useful to expand the set of 
analysed consonant clusters, both in terms of segment combinations and their number. It will 
be appropriate to verify the identified tendencies on a larger number of respondents and to 
obtain a more balanced group of males and females. The analysis was performed on the read 
text, which posed both advantages (controlled occurrence of target clusters, by speakers no 
need to formulate themselves) and disadvantages (potential influence of the graphic form on 
pronunciation, more difficult vocabulary), so it will be appropriate to expand the research 
material with recordings of spontaneous speech. The rating of intelligibility processed by 
authors was for information only; perception tests focusing on the impact on a native speak- 
er in terms of foreign accent, intelligibility and comprehensibility would also be beneficial. 
Recordings of Czech native speakers started to be gathered to compare native and non-native 
speech. In addition, it would be useful to analyse the production of consonant clusters in 
speakers of other Lis, which could not only enhance our theoretical knowledge, but also be 


beneficial for improving methods in teaching pronunciation of Czech as L2. 
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Appendix 


A sample of a Czech text that was read and recorded (the target clusters are 
indicated) 

Sara, původem Švédka, začala spolu s rodiči Zit v Praze krátce po sametové revoluci. Stého- 
vat se nejdřív nechtěla. Svoje priority si nicméně postupně srovnala a později nelitovala. 
Odjakživa ji lákala psychologie, po maturitě proto skládala přijímací zkoušky na Filozo- 
fickou fakultu, bohužel neúspěšně. Nepochybně byla zklamaná, ale nerezignovala. Další 
rok se na vytoužené studium dostala. Byla nadšená, že si konečně plní své sny a jako stu- 
dentka poprvé v životě pocítila opravdovou svobodu. 

Diplomovou práci psala na téma psychologie skeptiků na území Evropské unie. V 
průběhu studia ji totiž zaujaly spekulace, které se týkaly vnímání skepse a její různé kon- 
cepty. Včera složila státnice. Byla nesmírně šťastná a ačkoli byla abstinentka [pst], měla 
sraz s kamarády a šla slavit. Ti se jí smáli, když okolo hopsala a radovala se jako malá 
holka. Ignorovat ji nemohla ani skupina lidí stojících opodál. Blondata ,Snéhurka” s 
modrýma očima, štíhlé sportovní postavy snadno přitahovala pozornost. Měla na sobě 
velice pěknou barokní [kn] sukni skořicové barvy a jemnou stylovou blůzu. Dokonalý 
sváteční vzhled doplňovala bílá magnólie, která se Sáře pnula ve vlasech. 

Kolem se šouralo nějaké psisko s ježatými chlupy. Tohoto psa, u něhož lékařka vyslo- 
vila prognózu, že brzo oslepne, a který stěží [sc] slyšel na jedno ucho, k sobě zavolala starší, 
smutná paní. Dávala si v kavárně pozdní snídani [sn] - popíjela svou oblíbenou vídeňskou 
kávu s čerstvým meruňkovým koláčkem a četla další román Milana Kundery. Jakmile 
zahlédla Sáru, začala ji pozorovat a bezchybně [bn] odhalovat všechny drobné detaily její 
trochu extravagantní sukně. Například, že svrchní látka byla zhotovena z dvojvlákna, a 
spodní, která pomáhala sukni napnout a udržet její tvar, byla jistě bavlna s krajkovou 
ozdobou dole a krepsilonem. Sukně byla tak dlouhá a splývavá, že v ní člověka snad ani 


nemohlo zábst [pst]. 


English translation of the Czech text sample 

Sarah, originally from Sweden, started living with her parents in Prague shortly after the 
Velvet Revolution. At first, she didn't want to move, however, she gradually put her prior- 
ities straight and later did not regret it. She has always been attracted to psychology, so after 
graduating from high school she attended the entrance exams to the Faculty of Arts, but 


unfortunately was not accepted. No doubt she was disappointed, but she did not give up. 
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The next year she got into the university. She was excited that she was finally fulfilling her 
dreams and, as a student, for the first time in her life she felt real freedom. 

She wrote her diploma thesis on the topic of psychology of skeptics in the European 
Union. During her studies, she became interested in speculations concerning the percep- 
tion of skepticism and its various concepts. Yesterday she passed the state exam. She was 
extremely happy and although she didn't drink, she met her friends and went to celebrate. 
They laughed at her as she jumped around and rejoiced like a little girl. Even a group of 
people standing nearby could not ignore her. A blond “Snow White” with blue eyes and 
slender athletic figure would easily attract attention. She was wearing a very nice baroque 
cinnamon color skirt and a delicate stylish blouse. The perfect festive look was comple- 
mented by a white magnolia, which decorated Sarah's hair. 

An older, sad-looking lady called a rough-looking dog that was running around to come 
close to her. It could barely hear in one ear and a doctor warned that it would go blind soon 
too. The lady was having a brunch in the café; she was sipping her favorite Viennese coffee 
with a fresh apricot pie and reading another novel by Milan Kundera. As soon as she spot- 
ted Sarah, she began to observe her, precisely revealing all the small details of her somewhat 
extravagant skirt. For example, the top fabric was made of double fiber, and the bottom 
fabric, which helped tighten the skirt and maintain its shape, was certainly cotton and crepe 
with a lace ornament at the bottom. The skirt was so long and flowing that you definitely 


wouldn't feel cold in it. 


Spanish translation of the Czech text sample 

Sarah, nacida en Suecia, comenzó a vivir con sus padres en Praga poco después de la Rev- 
olución de Terciopelo. Al principio no quería mudarse, sin embargo, gradualmente puso 
sus prioridades en orden y no se arrepintió. Siempre le atraía la psicología, por lo que 
después de realizar el bachillerato asistió a los exámenes de ingreso a la facultad, pero 
lamentablemente no fue aceptada. Sin duda, estaba decepcionada pero no renunció y al 
año siguiente ingresó a la universidad. Estaba emocionada de que finalmente estaba cum- 
pliendo sus sueños y, como estudiante, por primera vez en su vida sintió verdadera liber- 
tad. 

Escribió su trabajo fin de grado sobre el tema de “La psicología de los escépticos dento 
la Unión Europea”. Durante sus estudios, se interesó por las variantes de la percepción del 
escepticismo y sus diversos conceptos. Ayer aprobó el examen estatal y estaba extremada- 
mente feliz. Aunque no bebía alcohol se fue a celebrar con sus amigos. Se rieron de ella 


mientras saltaba y se regocijaba como una niña, incluso un grupo de personas que estaban 
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cerca no podían ignorarla. Una rubia “Blancanieves” con ojos azules y una figura atlética 
esbelta fácilmente llamaba la atención. Llevaba una falda estilo barroco muy bonita de color 
canela y una blusa elegante y delicada. El look festivo perfecto se complementó con mag- 
nolia blanca, que decoraba el cabello de Sarah. 

Una señora mayor y con aspecto triste llamó al perro con pelo de punta que se movía 
de un lado a otro para que se acercara a ella. El perro apenas oía por un oído y el veteri- 
nario advirtió que pronto tambien se quedará ciego. La señora estaba tomando un brunch 
en el café, bebía su café vienés favorito con una tarta de albaricoque recién hecho y leía otra 
novela de Milan Kundera. Tan pronto como vió a Sarah, comenzó a mirarla, observando 
con precisión todos los pequeños detalles de su falda tan extravagante. Notó que la tela 
superior estaba hecha de doble fibra y la tela inferior, que tensaba la falda y mantenía su 
forma, era de algodón y crepé con un adorno de encaje en la parte inferior. La falda era tan 


larga y fluida que una seguramente no tendría frío con ella puesta. 
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cognitivos! ? 


Relating qualitative and 
quantitative analysis. A predictive 
statistical model proposal to 
complete the complex description 
of cognitive verbs 


M. Amparo Soler Bonafont 
Universidad Complutense de Madrid - España 


Resumen: El objetivo del presente capítulo es realizar una propuesta de descripción 
de los usos semántico-pragmáticos de unas formas verbales complejas como son las 
formas performativas de los verbos cognitivos, concretamente, de su forma paradig- 
mática creo, en la interacción oral. Para ello se lleva a cabo una aproximación cogni- 
tiva con base en una propuesta estadística predictiva, creada a partir de un sistema 
de regresiones multinomiales (con la herramienta STATA). Se persigue que el mode- 


lo diseñado permita reconocer con un elevado grado de explicatividad ante qué 


Este capítulo profundiza en algunos de los resultados parciales que son fruto de la tesis doctoral de la auto- 
ra (Soler, 2019), así como de la ampliación que de ellos se realiza en Soler (2021b). 

La investigación se enmarca en el proyecto Los procesos de gestión de la imagen y la descortesía: perspectivas 
históricas, lingúísticas y discursivas, concretamente, en la subdivisión de análisis de procesos discursivos (ref. 
PID2019-107668GB-100, Ministerio de Ciencia e Innovación, Gobierno de España). 
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significados y funciones pragmaticas de unidades polisémicas y polifuncionales 
como creo nos encontramos, una vez sistematizadas las principales circunstancias 
de aparición cualitativas que las rodean. El estudio de formas se da en un corpus 
compilado de conversaciones coloquiales y de discursos de debate parlamentario. 
Como resultado, se obtiene un modelo de análisis predictivo replicable en otros 
textos y géneros en los que pueden aparecer unidades epistémicas similares. 

Abstract: The goal of this chapter is to bring a description proposal for the semantic 
and pragmatic uses of some complex verbal forms like the performative forms of 
cognitive verbs, specifically creo, in oral interaction. For this purpose, it is carried out a 
cognitive approach based on a predictive statistical pattern created with a multinomi- 
al regressions system (through STATA tool). It is intended that the designed model al- 
lows the researcher to recognize what senses and pragmatic functions is dealing with 
in so polysemic and polyfunctional units as creo, with a high degree of explanation, 
once the main circumstances of its qualitative appearances are systematized. The 
study of forms is done in a compiled corpus of colloquial conversations and parliamen- 
tary debates. As a result, it is obtained a predictive model of analysis which is replicable 


in other texts and genres in which some similar epistemic units can appear. 


Introducción 


Dificultades descriptivas en el grupo de las formas performativas de los verbos 
cognitivos 

La explicación funcional del uso semántico-pragmático de algunas unidades epistémicas 
en los textos resulta aún hoy, y tras siglos de disquisiciones, compleja. Tal es el caso, reve- 
ladamente frecuente en la oralidad, de algunas formas verbales de primera persona del 
singular del presente de indicativo: creo, pienso..., también conocidas como formas per- 
formativas de los verbos cognitivos o de opinión (Fetzer y Johansson, 2010; Fetzer, 2014; 
González Ruiz, 2015; Soler, 2018). Estas formas verbales son subjetivas y, en algunas oca- 
siones, pueden manifestarse de manera integrada (creo que + verbo) o parentética (uso de 
creo con movilidad posicional), desde el punto de vista morfosintáctico. No obstante, estas 
características que las identifican no son tan llamativas como otros de sus rasgos definito- 
rios, los cuales dificultan su reconocimiento: estos son su polisemia y su polifuncionalidad 


anunciadas (Hartwell et al., 2017; Jansegers, 2017; Soler, 2019). 
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Los diferentes significados y funciones que pueden manifestar unidades como creo, la 
forma paradigmática de este conjunto por tratarse de la más compleja y la más polisémica 
y polifuncional de su clase (Soler, 2019), han sido estudiadas en diferentes géneros (tanto 
en español como en otras lenguas), entre los que destacan los de interacción oral, especial- 
mente, la conversación y el debate parlamentario. Así bien, incluso en este tipo de géneros, 
creo y formas verbales semejantes a esta manifiestan desde funciones atenuantes hasta 
intensificadoras (Cutting, 2007; Fuentes Rodríguez, 2010, 2016; De Hoop et al., 2018), a la 
vez que despliegan una gran variedad de valores semánticos, desde la creencia hasta el 
juicio (Soler, 2019, 2021). Distinguir la multiplicidad de sus posibilidades semántico-prag- 
máticas no es tarea sencilla para el lingúista, que se encuentra, desde hace más de un siglo 
con un escollo adicional en estos verbos: la limitación de las herramientas lingúísticas 
tradicionales para el estudio de fenómenos complejos como el citado. Los pragmatistas se 
preguntan cómo definir los significados y significados en uso de unidades subjetivas como 
las que son objeto de este trabajo, para los que no son suficientemente explicativas las 
pruebas veritativo-condicionales ni las de la pragmática clásica. Por estos motivos, son cada 
vez más numerosos los estudios que realizan una aproximación cognitiva a estas formas, 
gracias a su concepción de la semántica y de la pragmática como un mero continuum 
(Achard, 1998; Buceta, 2014; Jansegers, 2017; Jansegers y Gries, 2017; Boas y Ziem, 2018), lo 
que ayuda a superar algunos obstáculos definitorios. 

No obstante, y de acuerdo con diferentes estudios pragmáticos y sociolingúísticos re- 
cientes (Díaz-Campos y Gradoville, 2011; González et al., 2014), la explicación cualitativa 
cognitiva queda incompleta si no se realiza un análisis riguroso de corpus, de tipo cuanti- 
tativo (Roldán 2005; Abdulrahim, 2014; Milin et al., 2016). Dicha incompletud se observa 
en la falta de diseños metodológicos cuantitativos capaces de dar una respuesta procedi- 
mental adecuada a la hora de operar ante estos casos, así como en la falta de homogeneidad 
ante la descripción tanto de unos valores semánticos cerrados de creo, como de las funcio- 


nes concretas que puede desarrollar. 


. Planteamiento de este trabajo 


El objetivo de esta investigación, una vez enunciadas algunas de las fallas metodológicas en 
el estudio de fenómenos lingitisticos semántica y pragmáticamente complejos, es tratar de 
llevar a cabo una descripción sistemática del funcionamiento de las formas performativas de 
verbos cognitivos como creo en la interacción oral. Para ello, este trabajo combina el análisis 
cualitativo de corte cognitivo y el análisis cuantitativo, en lo que se propone como una pro- 


puesta predictiva de reconocimiento de valores de creo. Se expone un modelo diseñado 
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mediante distintas regresiones multinomiales de variables cualitativas de análisis (elaboradas 
con una base cognitiva), las cuales se realizan a través de herramientas como STATA. Con 
este modelo se consigue reconocer con un elevado grado de explicatividad ante qué signifi- 
cados y funciones pragmáticas de la unidad objeto de estudio podemos encontrarnos, una 
vez sistematizadas las principales circunstancias de aparición que las rodean. 

Las formas analizadas como tokens se han extraído de un corpus constituido por dos gé- 
neros discursivos de tipo interactivo, en el español de España, de los últimos 20 años: conver- 
saciones coloquiales (de los corpus disponibles COGILA, COJEM, Val.Es.Co. 2002 y Val.Es.Co. 
2.0) y discursos de debate parlamentario (pertenecientes al archivo del Congreso de los Dipu- 
tados del Gobierno de España y de Les Corts Valencianes y accesible en línea). Sobre los datos 
obtenidos, se han aplicado las bases de la estadística descriptiva y predictiva, como también 
se ha realizado en otros trabajos de corte lingüístico previos (Abbhul y Mackey 2013, James et 
al., 2013). En definitiva, se obtiene un diseño predictivo propio, el cual es replicable en otro 
tipo de textos y géneros textuales susceptibles de contener unidades epistémicas de funciona- 


miento similar al de las formas performativas de los verbos cognitivos. 


Acercamiento teórico a creo y otras formas performativas de 
los verbos cognitivos 
Una de las grandes preocupaciones de los filósofos del lenguaje desde el siglo XIX (desde Frege 
o Russell, hasta Kripke o Richard), y que ha perdurado en la lingúística aún hasta nuestros 
días, es la de la descripción de aquellas unidades subjetivas cuyo valor de significado no puede 
ser suficientemente explicado desde la semántica, pero para las que la pragmática tampoco 
puede ofrecer una solución aislada. Tenemos un claro ejemplo en las formas performativas, 
esto es, aquellos verbos en primera persona del singular del presente de indicativo, y que son 
de carácter cognitivos. Son casos como considero, creo, opino, pienso, supongo..., con los que 
no solo se hace evidente el origo, la presencia del hablante en la escena en que se produce lo 
dicho, sino que se observa que el significado del referente viene enriquecido con aspectos 
intencionales que le superpone el hablante gracias a una doble posibilidad de lectura: propo- 
sicional y también extraproposicional. Esta naturaleza hace ver, pues, que unidades como las 
comentadas se encuentran en el límite mismo entre la semántica y la pragmática. 
Disquisiciones aparte, en este trabajo abordamos la problemática concreta que ofrece 
una forma verbal paradigmática: creo, por ser considerada esta la más compleja del con- 
junto de las formas performativas de los verbos cognitivos. Con su estudio pueden verse 


resumidas cuestiones que atañen al resto de unidades de primera persona del singular de 
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estos verbos, que funcionan de modo semejante, y cuyas dificultades definitorias (si no 


todas, sí muchas de ellas) pueden verse subsumidas en las que aquí planteamos para creo. 


. Polisemia de creo 


Creo es considerada una forma verbal con un valor altamente subjetivizador de lo dicho 
(Soler, 2019). Es la forma performativa del verbo creer, el cual se caracteriza por ser poli- 
sémico, si bien esta polisemia no había sido aclarada hasta los últimos años. El reciente 
interés investigador por esta polisemia ha cristalizado en el reconocimiento de una alta 
complejidad cifrada en el conjunto de varios aspectos: su polimorfismo construccional 
(creer en, creer que, no creer...) (Buceta, 2014; Soler, 2019), la multiplicidad de contextos de 
aparición (conversación coloquial, entrevistas políticas, debates, etc.) (Fetzer, 2014; Fetzer 
& Johansson, 2010; González Ruiz, 2015; Soler, 2018), la frecuencia de un fuerte componen- 
te argumentativo en su cotexto próximo (Fuentes Rodríguez, 2010, 2016), y la diferente 
variedad funcional, incluso complementaria (desde la atenuación a la intensificación, 
pasando por la neutralidad), que puede manifestar (González Ruiz, 2015; Soler, 2019). 

De todo ello se desprende que creo, la forma más peculiar de su paradigma morfológi- 
co, supone un escollo para la investigación, que si bien ha observado las causas de su 
complejidad, no había conseguido dar hasta la fecha con una descripción consistente de 
sus usos. Y es que la bibliografía se ha tratado de acercar repetidamente a sus significados, 
los cuales fluctuaban entre dos y seis valores, sin que pudiera haber acuerdo, sino solo un 
resumen tradicional de los valores primordialmente en dos: el epistémico o débil y el de 
opinión o fuerte (Fetzer, 2014; Fetzer & Johansson, 2010; González Ruiz, 2015). Estos dos 


significados polares se resumen en los siguientes ejemplos: 


B: pero ¿qué es/¿que ya lo has dejado 00? 
A: creo que ya lo he dejado un poco por imposible (valor epistémico o débil) 
B: yo creo que tienes que insistir (valor de opinión o fuerte) 


Puede observarse que el valor débil de creo presenta a modo de duda y no de una convicción 
lo dicho por A, y expresa que el hablante puede no disponer de pruebas para manifestar lo 
dicho con mayor grado de seguridad. Por su lado, el valor de opinión se corresponde con la 
expresión de un juicio personal, independientemente de las pruebas de las que se disponga 
sobre lo aseverado. En ambos casos está presente la subjetividad, pero esta pone su foco en 
diferentes aspectos (bien en las pruebas de las que se dispone sobre ello, bien en la confianza 


de que lo dicho sea de tal o cual modo), incluso con el uso de una misma construcción formal. 
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La distinción básica revisada puede resultar viable en un primer momento, pero no lo es 
si nos encontramos ante casos como los que siguen: creo que tu papi va a jugar con el barqui- 
to más que tú (en que además del grado de seguridad, también podríamos hablar de opinión); 
hospital de la Vega Baja, hospital -creo recordar- de Elda... (en que tenemos construcciones 
de doble acusativo, muy características, en las que tampoco es fácil discernir ante qué valor 
nos encontramos); eso eslo que creo (en que una nueva construcción encapsulada en función 
de atributo parece estar acercándose más al valor de certeza que al de duda o al de opinión), 
etc. Con ello, vemos que la polisemia debe abordarse desde un criterio efectivo, que ordene 
los semas de cada valor de manera rigurosa para poder reconocer límites entre ellos, que 
supere la diversidad de descripciones bibliográficas y que, de acuerdo con lo visto, evidencie 
los puntos de conexión con las diferentes construcciones formales del verbo. Asimismo, y 
como persigue este capítulo, se espera que la categorización obtenida se acompañe de un 


criterio de reconocimiento sencillo y viable para el analista. 


Polifuncionalidad de creo 

La polifuncionalidad, no solo de creo, sino también de otras unidades de su mismo conjunto 
de formas performativas, subjetivas y cognitivas, viene de la mano de su reconocida polisemia. 
Como hemos avanzado, en usos como los de creo se han reconocido tradicionalmente funcio- 
nes de atenuación (creo que ya lo he dejado un poco por imposible, Val.Es.Co. 2002), neutralidad 
(hospital de la Vega Baja, hospital -creo recordar- de Elda, Les Corts Valencianes), e incluso 
intensificación (A: es que los mayores? además a mí seguro que se me comen (RISAS)/ tienes 
que tener un SEXTO= // B: NO} yo creo que exige mast, Valesco 2.0, C. 1, 68-69). 

Diversos estudios monográficos previos que han versado sobre el objeto de estudio de 
este capítulo se han preguntado si existe una correlación entre los significados reconocidos 
y las funciones pragmáticas de creo. La bibliografía ha llegado a establecer una correlación 
casi directa entre el valor débil y la atenuación, por un lado, y el valor de opinión, y la in- 
tensificación (Fuentes Rodríguez, 2016; González Ruiz, 2015), por otro ladoo. Estas corre- 
laciones establecidas de forma automática y asumidas por la comunidad científica llevan, 
no obstante, a arrastrar varios errores conceptuales básicos. Así, por ejemplo, cabe destacar 
que los estudios de corpus realizados hasta la fecha no aportan una amplitud suficiente de 
datos basados en corpus de lengua real ni cotejan las observaciones con pruebas objetivas 
y replicables a partir de las que puedan ofrecerse resultados concluyentes, con lo cuales 
pudiera confirmarse dicha automaticidad de relaciones semántico-pragmáticas de creo. 
Asimismo, en los estudios se observa una ausencia de criterio para la detección de otros 


posibles significados, o funciones, distintos a los básicos, ya comentados. Prueba de ello es 
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que la neutralidad suele quedar fuera de los análisis, pese a que algunos investigadores han 
llegado a reconocer esta función en casos aislados, o incluso que la atención a las diferen- 
tes manifestaciones formales de creo y sus repercusiones a nivel semántico y pragmático 
suelen estar ausentes en las investigaciones. Serán estos aspectos los que tratará de solven- 
tar este capítulo con la propuesta de un modelo de análisis concreto, que se presenta como 


replicable también para otros análisis de unidades doxásticas complejas. 


3. Exploración de un análisis cognitivo experimental 
La búsqueda de metodologías de análisis, si no alternativas, sí complementarias a las expli- 
caciones cualitativas de la semántica tradicional, ha llevado a la comunidad científica a explo- 
rar enfoques integradores, como es el caso de la lingüística cognitiva. Abdulrahim 2014; 
Fetzer y Johansson 2010; Jansegers 2017; Jansegers y Gries 2017; Milin et al., 2016; o Roldán 
2005 son algunos de los casos de análisis semántico-pragmáticos de tipo cognitivo combina- 
dos con estadística. Este marco teórico entiende la semántica y la pragmática como un con- 
tinuo, lo cual ha facilitado la comprensión de formas como creo desde este paradigma, como 
prueban dichos estudios. Gracias a este enfoque, la observación cualitativa del analista no se 
ve anulada, sino que es, además de reconocida, apoyada en datos reales y comprobables. Se 
trata, por tanto, del motivo por el que el enfoque cognitivo está tomando cada vez más auge 
en los últimos años. Asimismo, el acercamiento estadístico predictivo y experimental tam- 
bién se ha visto incrementado recientemente en distintos trabajos lingitisticos, cognitivos, e 
incluso funcionales y sociolingiiisticos (Boas & Ziem, 2018; Díaz-Campos & Gradoville, 
2011), en los cuales, como planteamos en este trabajo, un sistema de análisis cuantitativo 


riguroso completa adecuada y necesariamente la aproximación cualitativa. 


4. Metodología del estudio 
De acuerdo con lo expuesto, la hipótesis de partida que planteamos es que debe de existir la 
posibilidad de realizar un cálculo aproximado de los valores semánticos y pragmáticos que 
manifiestan formas performativas como creo, si el inventario de categorías (significados y 


funciones) que se les reconoce es cerrado’. Por esta razón, la pregunta de investigación a la 


3 Desde el punto de vista de la Semántica Cognoscitiva, los significados de creo, así como los de otras palabras 
polisémicas, pueden concebirse como continuos y ordenables a partir de la ganancia o pérdida de algunos semas. 
Ahora bien, lo que esta concepción del significado conlleva es que existan valores básicos, prototípicos, desde los 
que derivan extensiones significativas. Luego los significados nucleares sí que componen inventarios cerrados y, 
por consiguiente, pueden ser estudiados de una manera más sistemática que si el investigador se enfrentara a 
toda la polisemia de elaboraciones y extensiones semánticas en su conjunto que puede generar una palabra. 
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que se pretende responder es qué método, complementario al análisis cualitativo, puede 
permitir una descripción más amplia y certera de los usos de unidades complejas como creo. 

Este capítulo se propone, por consiguiente, aplicar un análisis de creo, como forma 
paradigmática del conjunto de unidades performativas complejas de los verbos cognitivos, 
desde el paradigma del cognitivismo, el cual ha resultado eficaz para la descripción de otras 
formas lingúísticas (adverbiales y verbales) de funcionamiento semejante a la que es obje- 
to de estudio (Abdulrahim, 2014; Fetzer y Johansson, 2010; Jansegers, 2017; Jansegers y 
Gries, 2017; Milin et al., 2016; Roldán, 2005), y probar su operatividad. Asimismo, se quie- 
re determinar qué parámetros afectan en el proceso de detección de la semántica y la 
pragmática de la forma verbal para establecer un protocolo jerárquico de las características 
observables y que, a partir de estas, pueda certificarse un alto grado de reconocimiento del 
significado y de la función pragmática de creo. 

Con este fin, planteamos una metodología de análisis de corpus. Se compila un con- 
junto de textos disponibles de interacción oral de diferentes géneros discursivos: conver- 
sación coloquial y debate parlamentario. Son estos dos los formatos en los que más se ha 
estudiado hasta la fecha el comportamiento de los verbos cognitivos, tanto en el caso del 
español como en otras lenguas. Asimismo, se trata de géneros que suponen puntos opues- 
tos de un continuo tanto de formalidad como de otros rasgos como dialogicidad, grado 
de planificación y determinación en el reparto de los turnos de los participantes, lo que 
permite obtener un espectro ancho de circunstancias de la oralidad adecuadas para rea- 
lizar un estudio general de tendencias de uso de creo lo más amplio posible. La compi- 
lación la conforman textos de conversaciones coloquiales de los corpus COGILA, CO- 
JEM, Val.Es.Co. 2002 y Val.Es.Co. 2.0; y sesiones de debate parlamentario del Congreso 
de los Diputados (del Gobierno de España) y de Les Corts Valencianes (del gobierno 
autonómico de la Comunitat Valenciana), en una proporción equitativa. En el caso de 
los corpus conversacionales, se analizan en su totalidad el COGILA (36 ooo palabras); 
el COJEM (100 000 palabras); Val.Es.Co. 2002 (91 366 palabras); y Val.Es.Co. 2.0 (128 
394 palabras). De los corpus parlamentarios se obtiene, de manera aleatoria, una mues- 
tra de una cantidad similar de palabras, repartida esta entre las dos fuentes: Congreso de 
los Diputados, 177 522 palabras; Les Corts Valencianes, 174 366. La siguiente tabla resume 


esta base de la muestra: 
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Tabla 1. Datos de la muestra, base para el análisis. 


descripción compleja de los verbos cognitivos 


Género N. ° palabras N. ° casos creo 
conversación coloquial 355 760 427 
debate parlamentario 351 888 303 
TOTAL 707 648 730 


Como se observa en esta Tabla 1 ilustrativa, de los corpus se extraen manualmente los ejem- 


plos de creo (bien con buscadores de los archivos de PDF manejados para el caso de los 


debates parlamentarios, bien a través de la escucha de las conversaciones coloquiales graba- 


das). Estos suponen un total de 730 casos, los cuales se analizan desde el punto de vista 


cualitativo, mediante la observación de 30 variables de análisis determinadas en análisis 


previos (Soler, 2019), bajo un criterio de aproximación cognitiva, sobre todo, aquellos que 


realizan una aproximación semántica y funcional a creo. Se trata de las siguientes variables: 


|. Parámetros formales 
MORFOSINTÁCTICOS 


Construcción de creo, 

Integración parenticidad de creo en la cláusula, 
Sujetosintácticode creo, 

Pronominalización del objetodirectode creo, 
Pronominalización del objetoindirectode creo, 
Negación de creo, 

Posición sintáctica de creo, 

Negación del verboregidopor creo, 

Persona y númerodel verboregidopor creo, 
Tiempoverbal del verboregidopor creo, 
Modoverbal del verboregidopor creo; 


Soe 129 “ION id IS A 


0. 
1. 


DE COAPARICIÓN 
12. Coaparición creo + marcadores del discurso, 
13. Coaparición creo + formas y estructuras lin- 
gúísticas relevantes en el reconocimientode su 
semántica/pragmática, norepetidas, 
14, Coaparición creo + formas y estructuras lin- 
guísticas relevantes en el reconocimientode su 


semántica/pragmática, repetidas en el cotexto; 


ll. Parámetros semánticos 
ARGUMENTATIVOS 


15. Tipode argumentoen el que se sitúa creo, 
16. Polifonía de creo; 
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DE SIGNIFICADO 

17. Naturaleza factual del predicadode creo, 

18. Compartición de las pruebas odatos para ava- 
lan lodichocon creo, 

19. Gradode subjetividad, 

20. Tipode intervención en la que aparece creo, 

21. Gradode convencimientodel hablante sobre 
loexpresado, 

22. Valor semánticobásicomanifestadopor creo; 


lll Parámetros discursivo-funcionales 
PRAGMÁTICOS 


23. Tipos de actos de habla de creo, 
24. Posición discursiva de creo, 

25. Gradode asertividad, 

26. Funciones pragmáticas; 


SOCIOPRAGMÁTICOS 
27. Actividades de imagen; 


PARALINGUISTICOS 
28. Otros aspectos relevantes; 


IV. Parámetros textuales 
29. Tipología textual de la secuencia de creo, 
30. Género discursivo. 
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Realizado el análisis cualitativo con la observación de los aspectos cifrados en las variables 
previas sobre el total de los 730 casos obtenidos, pasamos a realizar el análisis cuantitativo 
principal que este trabajo presenta. Este consiste en la aplicación de una estadística explo- 
ratoria (mediante tablas de contingencia comunes) que permite discriminar algunos datos 
básicos (ej. la determinación de algunos resultados semánticos, a partir de algunos aspec- 
tos formales de las manifestaciones del verbo). Tras ello, se propone un modelo de análisis 
de estadística descriptivo-predictiva basado en un protocolo de tres pasos: 1. regresiones 
logísticas, 2. obtención de valores de verosimilitud de cruces de las variables en la deter- 
minación del grado de explicación sobre la semántica y sobre la pragmática de creo, y 3. 
cálculo de errores. Todos estos cálculos se realizan en una programación experimental de 
1 000 iteraciones, mediante el programa STATA. Ahora bien, para poder aplicar las prue- 
bas estadísticas, se crea un corpus ampliado en el que se aumentan los datos hasta llegar a 
un mínimo de 5 casos por cada variante de las contenidas por variable aplicada (ya que se 
trata del número mínimo de casos para que los que las pruebas estadísticas pueden arro- 
jare resultados significativos). Estos ejemplos se obtienen de los corpus COLAm y CORPES 
XXI, para el caso de la conversación coloquial, y de otras sesiones no consultadas de las 
mismas fuentes parlamentarias, para el caso del debate. La Tabla 2 resume los datos de creo 
extraídos del corpus ampliado (un total de 865 casos), sobre los que se aplica el protocolo 


de análisis, frente a los del corpus base (730 ejemplos). 


Tabla 2. Datos de los corpus base y ampliado , para el análisis estadístico predictivo significativo 


Corpus base Corpus ampliado 


Ocurrencias de creo 730 865 


Las regresiones logísticas que planteamos para este análisis son de tipo multinomial. Las 
regresiones son un cálculo predictor sobre la incidencia de una variable dependiente (Y) 
sobre una independiente (X). El valor de la regresión (Y = Bo + B1X) permite obtener un 
coeficiente que cifra la estimación de los valores, el cual se denomina R2. Ahora bien, cabe 
destacar que esta prueba estadística presupone linealidad entre las variables. Dado que esta 
no se da entre aspectos cualitativos de análisis lingúísticos como el que presentamos y, por 
consiguiente, el cálculo obtenido en el primer paso no es exacto, en un segundo paso o ins- 
tancia calculamos complementariamente un número de verosimilitud de la relación entre las 
variables cotejadas. Lo hacemos a partir del modelo de McFadden, el cual permite obtener, 
frente a la estimación de valor de R?, un valor probabilístico de pseudo-R?. Este valor permi- 


tirá ordenar jerárquicamente las variables preestablecidas de mayor a menor grado de expli- 
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cación sobre el valor semántico de creo, por un lado, y sobre el valor pragmático, por otro. 
Finalmente, como este cálculo no es exacto y se realiza sobre 1 000 repeticiones del experi- 
mento, se calculan posibles errores a partir de la creación de dos variables: la máxima proba- 
bilidad de acierto del resultado y la mínima probabilidad de esta. Estas también se entrecru- 
zan con las previas para obtener las diferencias y el margen de error. 

En lo que sigue, se verán los resultados obtenidos de la aplicación de este modelo de 


análisis. Asimismo, se comprobará su viabilidad como metodología replicable. 


5. Análisis y discusión de los resultados 
El análisis efectuado sobre la semántica y la pragmática de creo ha ofrecido resultados en 
diferentes planos. En lo que sigue, presentamos los obtenidos en cada fase del estudio, y 
un resumen del modelo metodológico aplicado, el cual puede considerarse también como 


un resultado de la investigación. 


5.1. Fases del análisis 
El primer resultado que ofrece el acercamiento cognitivo a los usos discursivos de creo ha 
permitido reconocer cinco valores semánticos básicos: creencia, certeza, conjetura, predicción 
y juicio, de acuerdo con lo apuntado en estudios previos (Soler, 2018; 2019)*. Estos valores se 
ordenan en un continuo de subjetividad, según el grado de implicación del hablante en la 
escena que proyecta. Nuestro estudio estadístico descriptivo del corpus base, así como del 
corpus ampliado, permite ver que la construcción formal de creo determina en el 100 % de 


los casos alguno de estos cinco valores. Véanse las tablas de contingencia 3 y 4: 


4 Si bien la descripción de los significados de creo excede los objetivos de este capítulo (véase, para ello, Soler 
2021), describimos mínimamente los semas básicos de cada uno de ellos para aclarar su lectura. El valor 
de creencia describe la adhesión completa del hablante a lo dicho, con independencia de las pruebas que 
se tengan para ello (ej. creo en dios). El valor de certeza describe verdades que son absolutas únicamente 
para el propio hablante, el cual también las presenta como independientes de su comprobación (ej. me lo 
creo). El valor de conjetura hace referencia a un cálculo realizado por el hablante cuando este dispone de 
algunas pruebas sobre lo dicho (ej. creo que fue ayer). La predicción, como la conjetura, se basa en algunas 
pruebas, pero se proyecta sobre hechos futuros (ej. creo que viene mañana). Por último, el juicio manifiesta 
una opinión personal, basada en la comprobación de lo dicho, que ahora no es factual, sino que se basa en 
la única escala de valores que son los personales del hablante (ej. creo que eso no está bien). 
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Tabla 3. Cruce de datos obtenidos entre la construcción y el valor semántico de creo, con prevalencia 
del valor semántico (Soler, 2019). 


Variable formal (1): Construcción 


24. SIGNIFICADO creencia certeza conoci- posibili- juicio intr. im- 

miento dad preciso 
no creo en 100 % 0% 0% 0% 0% 0% 
(no) me (lo) creo (X) 0% 38,46% 0% 0% 0% 0% 
ya lo creo (X) 0% 38,46% 0% 0% 0% 0% 
(no) lo creo 0% 21,15% 0% 7,89% 0% 0% 
creo 0% 0% 11,67% 0% 4,79% 0% 
no creo 0% 0% 0% 17,54% 0% 0% 
creo que 0% 0% 59,17% 34,21% 75,80% 100 % 
no/tampoco creo que 0% 0% 0,00% 35,09% 0,23% 0% 
si/también creo que 0% 0% 1,25% 0% 3,88% 0% 
creo que no/Æ o verbo 0% 0% 7,92% 5,26% 4,57% 0% 
creo que si/también + Æ o verbo 0% 1,92% 9,58% 0% 2,74% 0% 
X + creo + PVO del OD/ pron. + creo + CC 0% 0% 0% 0% 4,57% 0% 
creo + infinitivo 0% 0% 8,33% 0% 0% 0% 
lo que creo + Æ o verbo 0% 0% 2,08% 0% 3,42% 0% 


Tabla 4. Cruce de datos obtenidos entre la construcción y el valor semántico de creo , con prevalencia de 
la construcción (Soler, 2019). 


(1) CONSTRUCCIÓN 


24. SIGNIFICADO creencia certeza conoci- posibili- juicio intr. im- 

miento dad preciso 
(no) creo en 100 % 0,00% 0% 0% 0% 0% 
(no) me (lo) creo (X) 0% 100 % 0% 0% 0% 0% 
ya lo creo (X) 0% 100 % 0% 0% 0% 0% 
(no) lo creo 0% 55% 0% 45% 0% 0% 
creo 0% 0% 57,14% 0% 42,86% 0% 
no creo 0% 0% 0% 100 % 0% 0% 
creo que 0% 0% 27,63% 7,59% 64,59% 0,19% 
no/tampoco creo que 0% 0% 0% 97,56% 2,44% 0% 
si/también creo que 0% 0% 15% 0% 85 % 0% 
creo que no/A o verbo 0% 0% 42,22% 13,33% 44,44% 0% 
creo que si/también + Æ o verbo 0% 2,78% 63,89% 0% 33,33% 0% 
X + creo + PVO del OD/ pron. + creo + CC 0% 0% 0% 0% 100 % 0% 
creo + infinitivo 0% 0% 100 % 0% 0% 0% 
lo que creo + Æ o verbo 0% 0% 25% 0% 75% 0% 
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Como puede observarse, tanto el valor de creencia ((no) creo en) como el de certeza ((no) 
me (lo) creo (X) o ya lo creo (X)) vienen determinados en el 100 % de los casos por una 
construcción concreta de creo. Asimismo, en la totalidad de los casos analizados en los que 
aparece una construcción concreta de creo, el valor semántico reconocido es el mismo, si 
bien esta relación no se da ahora siempre en el sentido inverso. Se trata de creo + infinitivo, 
que conlleva el valor de conjetura; y no creo, que expresa predicción; y X + creo + PVO del 
OD/ pron. + creo + CC, asociada al juicio. De ello se desprende que la aproximación cog- 
nitiva es eficaz, y que la estadística descriptiva ofrece una prueba patente de ello, pues 
certifica la viabilidad de las pruebas para discernir algunas de las relaciones de variables 
determinantes en el reconocimiento, en este caso, del valor semántico de creo. No obstan- 
te, no es determinante para el reconocimiento de su pragmática, ni explica todos los valo- 
res semánticos que ha distinguido el enfoque cognitivo aplicado. Por consiguiente, en una 
segunda fase del estudio, se aplica la estadística predictiva al corpus ampliado, con el fin 
de alcanzar resultados más concretos. 

Implementamos la metodología diseñada a partir de sucesivas pruebas de regresiones 
logísticas previas al corpus base ampliado. El método de ensayo y error nos permite obte- 
ner un protocolo de actuación ordenado y aplicado, finalmente, para 1 000 iteraciones, 
mediante STATA. Este experimento lo realizamos dos veces ya que, al no tratarse de un 
cálculo exacto (porque las variables cotejadas son cualitativas) las pruebas son de realiza- 
ción extensa y apenas puede llegarse a un valor de verosimilitud, y no a un 100 % de exac- 
titud, aunque sí lo más cerca posible de este porcentaje. Así, en una primera instancia, se 
aplica una regresión logística multinomial tomando como variable dependiente la relativa 
al valor semántico de creo, lo cual se lleva a cabo para 1 000 iteraciones o repeticiones. Tras 
ello, se repite el proceso, esta vez partiendo de la variable de la función pragmática como 
dependiente, con el mismo número de repeticiones. En el siguiente apartado aportamos 
los resultados obtenidos en ambas repeticiones del protocolo diseñado, siguiendo los pasos 


concretos y ordenados del diseño. 


. Resumen del diseño de un modelo predictivo de los valores de creo en tres fases 


En el modelo diseñado para el análisis predictivo de los valores de significado de creo, en 
primer lugar, y de sus funciones pragmáticas, en segundo lugar, determinamos para 
comenzar (1) la capacidad explicativa de las variables cotejadas. Obtenemos una tabla como 


la que sigue con los valores de R? de McFadden por cada uno de los cruces de variables: 
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Tabla 5. R? de McFadden para las variables independientes en la determinación del significado de creo 
(Soler, 2019). 


Modelos de regresión multinomial 


Log Likelihood 


pseudo-R2 
de McFadden 
(1.2 INSTANCIA) 


SIGNIFICADO (sin variables) -753.04064 

SIGNIFICADO - CONSTRUCCIÓN -570.74281 0,242082326 
SIGNIFICADO - INTEGRACION -744,02822 (el modelo converge) 0,011968039 
SIGNIFICADO - OD -718,37835 (el modelo converge) 0,046029773 
SIGNIFICADO - Ol -751,82063 (el modelo converge) 0,001620112 
SIGNIFICADO - NEGACIÓN V. -647,25325 (el modelo converge) 0,14048032 
SIGNIFICADO - NEGACIÓN V. SUB. -751,94636 (el modelo converge) 0,001453149 
SIGNIFICADO - PERS. Y NÚM. V. SUB. -683,25781 (el modelo converge) 0,09266808 
SIGNIFICADO - TIEMPO V. SUB. -639,50454 (el modelo converge) 0,150770216 
SIGNIFICADO - MODO V. SUB. -639,71697 (el modelo converge) 0,15048812 
SIGNIFICADO - SUJETO -730,20534 (el modelo converge) 0,030324127 
SIGNIFICADO - POSICIÓN SINT. -704,22015 (el modelo converge) 0,064831149 
SIGNIFICADO - REPETICIONES -706,214 (el modelo converge) 0,062183417 
SIGNIFICADO - MMDD -727,2134 (el modelo converge) 0,034297272 
SIGNIFICADO - OTROS ELEMENTOS -642,77243 (el modelo converge) 0,146430623 
SIGNIFICADO - GÉNERO -667,35646 (el modelo converge) 0,113784271 
SIGNIFICADO - TIP. TEXTUAL -598,01081 (el modelo converge) 0,205871797 


Seguidamente, a partir de estos datos, se calcula (2) la jerarquía de las variables en el 
aumento paulatino de explicación que proporcionan sobre el significado de creo. En la 
ordenación de esta jerarquía, nos fijamos en el valor de verosimilitud proporcionado por 
R? de McFadden, si bien también se tienen en cuenta cuestiones cualitativas de aplicación 
de las variables al análisis. Así, por ejemplo, se observa cualitativamente que las caracterís- 
ticas de tipo formal son más rápidamente reconocibles por parte del analista (las cuales 
subimos en la escala de jerarquía), y que otras de tipo semántico presentan una detección 
más compleja (razón por la que, en algunos casos, las relegamos a puestos inferiores de la 
jerarquía de aplicación). Así mostramos los resultados de la segunda instancia en dos 
tablas. Primeramente, observamos que en la Tabla 6 aparecen todos los resultados de vero- 
similitud obtenidos. Seguidamente, en la Tabla 7 reordenamos los parámetros de análisis 
de mayor a menor grado de explicación sobre el valor semántico del verbo y añadimos el 


porcentaje de error que este pueda estar generando. 
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Tabla 6. R? de McFadden ordenados por valor, en la determinación del significado de creo (Soler, 2019). 


Variables jerarquizadas Pseudo-R2 
de McFadden porcentual 
(2.7 instancia) 


1 TIPOLOGÍA TEXTUAL 25,44 % 
2 CONSTRUCCIÓN 24,21 % 
3 TIEMPO VERBO SUBORDINADO 16,43 % 
4 OTROS ELEMENTOS 15,58 % 
5 GÉNERO 12,43 % 
6 PERSONA Y NÚMERO VERBO SUB. 6,44 % 
7 POSICIÓN SINTÁCTICA 6,42 % 
8 SUJETO 5,36 % 
9 NEGACIÓN CREO 2,94 % 


Tabla 7, R? de McFadden reordenados por jerarquía de aplicación, en la determinación del significado 
de creo (Soler, 2019). 


Variables ordenadas Error común estándar 
CONSTRUCCIÓN 43,82 % 
SUJETO 32,80 % 
NEGACIÓN CREO 44,45 % 
TIEMPO VERBO SUBORDINADO 30,11 % 
PERSONA Y NÚMERO VERBO SUB. 32,80 % 
POSICIÓN SINTÁCTICA 45,70 % 
OTROS ELEMENTOS 27,82 % 
TIPOLOGÍA TEXTUAL 20,70 % 
GÉNERO 31,72% 


En la tabla 7 vemos cómo, en el último paso de nuestro protocolo (3) se obtiene un error 
ajustado de los cálculos realizados. Este permite ver que no ha habido desfases entre la 
extracción de los valores de verosimilitud de las tablas previas y los de la probabilidad total 
de que se reconozcan los datos de cada variable. Dado que, en este caso, para la semántica 
de creo, todos los valores obtenidos son menores al 50 % y no presentan diferencias rele- 
vantes respecto a los datos de verosimilitud de las regresiones llevadas a cabo, no se plantea 
una nueva reorganización en la jerarquía de aplicación de las variables, respecto a la ya 
propuesta. 

Para el caso de la determinación de las funciones pragmáticas de creo, que se han esta- 
blecido en las tres categorías reconocidas por la bibliografía previa (a saber, atenuación, 


neutralidad e intensificación), dado que el análisis cualitativo cognitivo aplicado las reco- 
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noce, efectivamente, en los mismos términos, se repite el experimento de tres fases dise- 
fiado, pero ahora, sobre la base del significado, ya reconocido gracias a la aplicación de las 


fases de análisis explicadas. Véase la tabla final obtenida: 


Tabla 8. R? de McFadden reordenados por jerarquía de aplicación, en la determinación de la función 
pragmática de creo (Soler, 2019). 


Regresión multinomial Log Likelihood Pseudo-R2 
de McFadden (1.? instancia) 

FUNCION-SDO -1227,0094 21,37 % 
FUNCIÓN-SDO-INTERSUBJLOC. -1117,7345 8,91% 
FUNCION-SDO-POSIC. SINT. -1,125 8,34% 
FUNCIÓN-SDO-GEN. -1132,3951 7,71% 
FUNCIÓN-SDO-IMAGEN -1.134 7,62% 
FUNCION-SDO-POLIF. -1142,6586 6,87% 
FUNCION-SDO-ASERTIVIDAD -1,144 6,78% 
FUNCIÓN-SDO-OTROSELS. -1147,1233 6,51% 
FUNCIÓN-SDO-TXT. -1148,9373 6,36% 
FUNCIÓN-SDO-CONVENC. -1164,7245 5,08% 


En este segundo experimento, se parte de que el significado de creo ya ha sido establecido 
con la primera aplicación del protocolo. De este modo, se reduce el número de variables 
en el cálculo de la función pragmática. En la obtención de errores, se estima que estos, de 
nuevo, no alteran los datos de verosimilitud de R? de McFadden y, por consiguiente, el 
orden y jerarquía de aplicación de las variables para la determinación de la función prag- 
mática de creo se mantiene como muestra, más arriba, la Tabla 8. 

El análisis demuestra, pues, que del total de variables cognitivamente descritas para el 
posible análisis semántico-pragmático de creo, solo algunas de ellas son eficaces con más 
de un 20 % de explicación y hasta más de un 50 %, mientras que otras, pueden descartarse, 
al menos, en un estudio genérico para detectar lo más automáticamente posible ante qué 


tipo de creo nos encontramos. 


Conclusiones 

El análisis de este capítulo confirma que es posible diseñar un modelo de análisis cuanti- 
tativo que, siempre como complemento del análisis cualitativo de fenómenos lingúísticos 
como el del funcionamiento de las formas performativas de los verbos cognitivos, permite 
determinar más del 60 % de sus valores semánticos, así como entre el 80 y el 100 % de sus 


funciones pragmáticas (si sumamos el valor de verosimilitud de la aplicación de las varia- 
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bles jerarquizadas en el protocolo). Asimismo, el modelo planteado para el caso de creo es 
replicable en otro tipo de textos y géneros discursivos. En contraposición con las carencias 
metodológicas de la bibliografía previa, el modelo de análisis creado mejora y perfecciona 
la aplicación de pruebas estadísticas que han resultado insuficientes en otros estudios. Este 
hecho confirma la hipótesis de partida de este trabajo, ya que es posible completar el aná- 
lisis cualitativo de creo con el acercamiento cuantitativo riguroso no solo descriptivo, sino 
también predictivo. Este modelo de análisis puede describirse a partir de tres fases: (1) 
determinación de la capacidad explicativa de las variables seleccionadas con criterios cog- 
nitivos, (2) jerarquización de las variables para la descripción semántica y pragmática de 
creo (o la forma verbal considerada), y (3) cálculo de errores cometidos en el proceso, las 
cuales dan respuesta a la pregunta de investigación del trabajo, la cual se cuestionaba si era 
posible llegar a una sistematización de análisis para el reconocimiento semántico-funcional 
de unidades lingúísticas complejas como la que nos atañe. 

En conclusión, cabe decir que este capítulo ha pretendido ofrecer un paradigma de 
estudio que es compatible con los ya conocidos, pero que viene a completar los puntos que 
no habían sido solventados hasta ahora por la investigación lingitistica más tradicional. 
Queda para el futuro próximo replicar este patrón propuesto y perfilar el modelo de aná- 
lisis y las fases de su consecución, así como también cotejar los resultados específicos que 


pueda dar su aplicación a otros formatos textuales y fenómenos lingüísticos. 
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Abstract: Bayesian networks are a widely used formalism for data analysis, model- 
ling, and decision support in various domains. Currently, there is a need for tech- 
niques and tools that automatically build Bayesian networks from massive text or 
literature data. Collecting people's perception ofthe problems they face in their dai- 
ly lives generates a great deal of textual information. Textual descriptions increase 
as new data collections are made. Due to the lexical differences between different 
regions of a country, it is necessary to constantly update the new modelled data. 

Resumen: Las redes bayesianas son un formalismo ampliamente utilizado para el 
análisis de datos, el modelado y el apoyo a la toma de decisiones en varios dominios. 
Actualmente, existe la necesidad de técnicas y herramientas que construyan au- 
tomáticamente redes bayesianas a partir de textos masivos o datos bibliográficos. 
La recopilación de la percepción de las personas sobre los problemas que enfrentan 
en su vida diaria genera una gran cantidad de información textual. Las descripciones 


textuales aumentan a medida que se realizan nuevas recopilaciones de datos. Debi- 
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do a las diferencias léxicas entre las diferentes regiones de un país, es necesario 


actualizar constantemente los nuevos datos modelados. 


Introduction 

The 17 Sustainable Development Goals (SDGs) are a plan of the United Nations to achieve 
a better and more sustainable future for people and the planet by 2030. In these goals there 
are aspects related to poverty, hunger, good health and well-being, quality education, clean 
water, clean energy among others. With just under ten years left to achieve the Sustainable 
Development Goals, world leaders at the SDG Summit in September 2019 called for a 
Decade of Actionand delivery for sustainable development, and pledged to mobilize 
financing, enhance national implementation and strengthen institutions to achieve the 
Goals by the target date of 2030, leaving no one behind. Thus, it was necessary to use reli- 
able technology for understanding peoples needs all around the world, and during this 
decade achieve the 17 Sustainable Development Goals (SDGs) lead by the United Nations. 
In that way, Bayesian network was used for collecting data through a software created by 
EduTLan group which helps to gather and analyze all the information needed to reach 
these goals. Bayesian networks are used for modelling knowledge in computational biolo- 
gy and bioinformatics, learning, medicine, biomonitoring, document classification, infor- 
mation retrieval, semantic search, image processing, data fusion, decision support systems, 
engineering, games and law. For decision-making at the governance level, it is necessary 
to know how non-compliance with the SDGs affects the well-being of the population. 
However, the SDGs are little known by the general population, so it is necessary to have 
techniques that can relate peoples speech in relation to the language of the SDGs. To fulfil 
this purpose, it is necessary to collect many descriptions of problems related to the SDGs 
in the communities. 

The main goal of this study is to describe the process of collecting, organizing, tagging 
and validating a corpus of more than 3,000 descriptions of problems related to compliance 
of the SDGs in three regions in Colombia. The main result of this study was a large digital 
corpus of descriptions of problems related to compliance of the SDGs in three regions in 
Colombia. The potential of the corpus was verified by evaluating the results of a Bayesian 
network algorithm. In the evaluation, the standard processing of the text by the algorithm 
produces a high rate of correct answers. 

The rest of the paper is organized as follows. Section 2 describes the theoretical frame- 


work that supports this research. Section 3 summarizes the methodological framework 
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based on Design Science Research (DSR) used to design the machine learning approach 
based on Bayesian networks for the analysis of corpus of local problems related to the 
Sustainable Development Goals. In Section 5 the results are describes. Finally, the conclu- 


sions are presented. 


Theoretical framework 

For this research work, theoretical elements on structural semantics and digital lexicogra- 
phy were used. Lexicon organization of the corpus from selected words were done based 
on the structural semantics proposed for the semantic fields as well as the other levels of 
the linguistic structure that have a structural nature and functioning. For this reason, this 
position was welcomed on this research, and it is applied for the collection of information. 
According to this structural organization, the entire lexicon must be organized into seman- 
tic fields. A semantic field, in linguistics, is one that makes up a group of words that share 
one or more features in their meaning. This semantic field is organized through hypernyms 
and hyponyms (In this investigation the term holonym is related to hypernym and the 
word meronym is related to hyponym. Theoretically, the difference between hyper- 
nyms-hyponyms and hollonyms-meronys is that the former has conceptual inclusion and 
the latter have material inclusion -i.e., part of-). A hypernym is a general term that can be 
used to refer to the reality named by a more specific term. 

For this research, each field is equivalent to the following development objectives, which 
functioned as hypernyms: no poverty, zero hunger, good health and well-being, quality 
education, gender equality, clean water and sanitation, affordable and clean energy, indus- 
try, innovation and infrastructure, reduced inequalities, sustainable cities and communi- 
ties, responsible consumption and production, climate action, life below water, life on land, 
peace, justice and strong institutions, partnerships for the goals. Each one of these referential 
fields presents, in turn, relations of hyponymy. The hyponyms are words that have all the 
semantic features, or semes, of a more general one - its hypernym - but that in its definition 
adds other semantic characteristics that differentiate it from others. The hyponyms of each 
hyperonym were determined, so when the words that the interviewee was saying were 
extracted from the recordings, they were distributed according to each hypernym and the 
default hyponyms for each one. For example, the hypernym no poverty has the following 
hyponyms: displaced women, social security, extreme poverty, poverty line, multidimension- 
al poverty, multidimensional poverty index. For a more related relation. 

This form to extract semantic relations of related words was based primarily from the 


digital lexicography; the basic approaches of semantic organization were led by the way 
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Wordnet was elaborated. WordNet is an electronic lexical reference system, developed in 
the form of a lexical database, created by the psycholinguist George A. Miller which is in 
line with psycholinguistic theories regarding the organization of lexical information in the 
mind of the speaker (Baars, 1986). WordNet is a project that was supported from the be- 
ginning by various US government and private institutions: The Department of Naval 
Research, the James S. McDonnell Foundation and Princeton University. Apart from being 
an example of government and public cooperation, it is also a project whose results have 
been made public and can be freely distributed for academic purposes. WordNet is avail- 
able to any user who wishes to consult its resources through the internet and the system 
can be used in online mode (See http://wordnet.princeton.edu/). The primary objectives 
of WordNet, and that The following are fundamental bases in the elaboration of this soft- 
ware: a) The validation of psycholinguistic theories on lexical organization; b) Its foresee- 
able use in various applications that require access to lexical information The basic differ- 
ence between this and other projects for the implementation of computational lexicons is 
that it is the only relatively large-scale project in which the organization of the Lexis in 
semantic fields can handle information for the purpose of gathering semantic approaches. 
In fact, the main motivation for its realization has been the idea of testing, through its direct 
implementation in a digital computer, psycholinguistic and lexicological theories regarding 
the structure of the mental lexicon. Following a model of semantic networks for organizing 
the mental lexicon, the group of researchers that made up WordNet set out in 1985 to cre- 
ate a tool that would allow moving through the structure of a dictionary conceptually and 
not just alphabetically. The differences from a traditional dictionary are obvious: WordNet 
divides the lexicon into five categories: nouns, verbs, adjectives, adverbs, and functional 
elements. However, Wordnet presents a considerable amount of redundant information 
that would not appear in a traditional dictionary, in those cases where a word belongs to 
more than one category. 

On the other hand, this type of organization greatly facilitates the analysis of the se- 
mantic organization differences that exist between these five syntactic categories, and it is 
also important to note that, by not having to force the different categories into the same 
representational scheme, it is possible to search the most suitable way for each one of them 
separately. WordNet is an attempt to reflect the lexical memory model based on semantic 
networks proposed by Collins and Quillian (1969) in a lexicographic model of lexical or- 
ganization. One of the first examples of a semantic memory network model is the TLC 
(Teachable Language Comprehender) (Collins & Quilliam, 1969). According to this mod- 


el, each node is a word that represents a concept (such as “bird”). With each node, a series 
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of properties is stored (such as “can fly” or “has wings”), as well as directions (for example, 
links) to other related nodes (for example, “dove”). A node is directly linked to those oth- 
ers that are a subclass or a superclass (for example, “bird” would be related to both the 
“pigeon” subclass and the “animal” superclass). Thus, the TLC model assumes a hierarchi- 
cal representation of knowledge, in which high-level nodes representing broad categories 
are connected (either directly or indirectly—Through the nodes of lower classes—) to a 
multitude of elements belonging to those categories. The nodes that represent concrete 
examples of these supracategories would be at a lower level, only connected to the imme- 
diately higher categories. Also, properties are stored at the highest level of categorization 
to which they can be applied. For example, “is yellow” could be stored with “canary”; “Has 
wings” could be stored with “bird” (one level up); and “can move” could be stored with 
“animal” (another level up). 

Nodes can also store the negation of the properties of their superordinate nodes (for 
example, “can't fly” could be stored with “penguin”). This provides an economy of rep- 
resentations, in which properties are only stored at the level of categorization for which 
they are essential, that is, at the point where they become critical characteristics. According 
to the TLC, processing is a form of activation propagation, that is, when a node is activat- 
ed, the activation spreads to other nodes through the links that join them. In that case, the 
response time to the question “Is the pigeon a bird?” it depends on the distance that me- 
diates between the nodes “dove” and “bird” (for example, the number of intermediate nodes 


that may exist). 


Methodological framework 

This section describes the Design Science Research Methodology (DSRM) (Hevner et al., 
2007) used in the present study to address the use of Bayesian networks in the analysis of 
corpus of local problems related to the Sustainable Development Goals (SDGs). 

This study adopted the DSRM due to it seeks to enhance human knowledge with the 
creation of innovative artifacts and the generation of design knowledge (DK) via innovative 
solutions to real-world problems. The DSRM approach, followed in this study, has been 
used before in the development of knowledge-based systems and Natural Language Pro- 
cessing (NLP) Systems. As an example, we could refer to the work of Pereira, Ferreira, & 
Lopes (2020) in knowledge representation and NLP case study in innovation processes 
(O’Riain, Curry & Buitelaar, 2012). This study includes the following five steps for the de- 


velopment of a software artifact according to DSRM. 


295 


4.1. 


Digital Humanities, Corpus and Language Technology 


Step 1. Problem identification and motivation. In this stage the objectives for a solution 
are described. Resources required for this activity include the state of the problem and the 
importance of its solution. 

Step 2. Objectives for a solution. Infer the objectives of a solution from the problem 
definition and knowledge of what is possible and feasible. Resources required for this in- 
clude knowledge of the state of problems and current solutions. 

Step 3. Design and development. Create the artifact. Such artifacts are potentially con- 
structing, models, methods, or instantiations (each defined broadly) (Hevner et al., 2007) 
or “new properties of technical, social, and/or informational resources (Jarvinen, 2007)”. 

Step 4. Demonstration. Demonstrate the use of the artifact to solve one or more instanc- 
es of the problem. This could involve its use in experimentation, simulation, case study, 
proof, or other appropriate activity. 

Step 5. Evaluation. Observe and measure how well the artifact supports a solution to 
the problem. This activity involves comparing the objectives of a solution to actual observed 
results from use of the artifact in the demonstration. It requires knowledge of relevant 


metrics and analysis techniques. 


Results 
This section describes the results obtained from the follow-up of each of the steps of the 
DSR methodology. 


Problem identification and motivation 

In this step the problem formulation for the proposed research approach is stated. The 

problem is described in the form of functional requirements (Eekels & Roozenburg, 1991; 

Baskerville, et al., 2018). Listed below are some of the functional requirements that are 

necessary to address the development of a system for translating community problem 

descriptions into language of the SDGs. 

+ Collect many descriptions of problems related to the SDGs that affect the communities 
of different regions of Colombia. 

+: Relate the documents of the corpus with the language of the SDGs, considering the 
lexicon of regionalisms. 

+ Provide graphical reports about the problems that each population describes. 

+ Develop a model that translates natural language into the language of the SDGs. 

* Develop an App that allows the collection, storage and translation of the problems ex- 


pressed by the communities. 
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Define the objectives for a solution 

Create a corpus with the descriptions of the problems and actions that are carried out in 

the communities, which have some relationship with the SDGs. Design a system that 

translates the problem descriptions of different communities into the language of the 

SDGs. The system must allow: 

+ Login through an account. 

+ Record an interview by voice and convert it to text. 

+ Enter the data related to the interviewed user. 

+ Record the priority topics for the interviewed user. 

+ Record by voice the three main problems in your community and the system converts 
it to text. 

+ Record by voice the three actions that have been taken 

+ implemented in your community for each of the three problems and the system converts 
it to text. 

: Thesystem, through Artificial Intelligence, reports on the SDGs related to each problem 
of the interviewee. 

: The system, through Artificial Intelligence, reports on the goals of each SDG related to 
each problem of the interviewee. 

: The system reports the percentage that relates each SDG to the problem reported by the 
interviewee. 


: The system incorporates new vocabulary related to the SDGs using machine learning. 


Design and development 

The classification method used in this study is Naive Bayes Classifier, to classify online 
testimonial data from leading e-traveling sites. The current Naive Bayes Classifier method 
has been developed to calculate the probabilistic size of each word and provide an assess- 
ment for each class. One of them is the Multinomial Naive Bayes model developed by 
Schiitze et al., (2008). This method estimates the conditional probability of a token that has 
a class, as the relative frequency of the word t in the document belonging to the class c. In 
NBC, the probability of a document d (e.g., problem description) being in class c, P(c|d), 


is computed as shown in this equation formula: 


P(cld) a P(c) 21 Pltglc) (1) 
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The Naive Bayes Multinomial Method takes into account the number of occurrences of the 


word tin class c training documents, as well as several existing events. 


P(tlc) =—*— (2) 


Èe ev Tet’ 


The data collection processing mechanism for training and prediction to be used by the 


ECHO application has the following phases: 


Unstructured data 


Preprocessing 


mucha droga mucho joven con sus negocios 
falta de trabajo acá mismo en el barrio y he visto que 

hay muchas nifias acostada pues joven embarazada si 
ese seria otro de los problemas que tú no vive aqui en 
el barrio 


mucho tráfico y movilidad 


Los perros hacen mucho popó en la calle uno pasa y 
pizza y ay no es horrible en la parte 
el medio ambiente 


de las bandas 


Figure 1. Input data processing and training protocol. 


Phase I: Preparation of the initial data matrix (Pre-processing). This matrix can be 
created as follows: 
1 From the cleaning of the matrix extracted from the events carried out or a particular 


subset of them. 
Phase II: Creation of the training dataset. This Dataset can be created in the following way: 


2 From experts tagging directed speeches captured by ECHO (SDG translation App). 


3 From the review of the application output of an Event 
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The Training Dataset has two columns, as shown in Figure 2. 


Document Label 
mucha droga mucho joven con sus negocios meta_4 3 


falta de trabajo acá mismo en el barrio y he visto que 

hay muchas niñas acostada pues joven embarazada si 
ese sería otro de los problemas que tú no vive aquí en 
el barrio 


mucho tráfico y movilidad 


Los perros hacen mucho popó en la calle uno pasa y 
pizza y ay no es horrible en la parte meta_15_5 


el medio ambiente meta_11_6 
de las bandas meta_16_1 
la inseguridad y violencia padres que maltratan los 
niños y en la calle meta_4_7 
mi barrio el principal problema Es la falta de seguridad |meta_11_2 
la delincuencia que hay en el barrio el cobro de 
extorsiones a los tenderos y a toda la gente que tiene su 
negocio meta_11_a 


Está más suave ya no hay casi venta así como los otros 
barrios porque sólo como ya hicieron la paz 2010 meta_16_1 


la violencia mujeres también hay mucho maltrato Con 
todo meta_4_7 


Figure 2. Training dataset with two columns: Document and Label. 


The theoretical foundation of the system has its origin in the idea of the “vocabulary 

matrix” (Miller et al.,1993) (vocabulary matrix). Miller uses the term lexical form (word 

form) to refer to the physical expression that is written or pronounced and meaning. 
Also, by using this methodology of “nodes” words from interviews were linked to words 


related and their goals (17 goals in total) as we can see on Table 1. 


Table 1. SDG and related words. 


SDGS Related words 


Goal 1 No poverty Displaced women, social security, extreme poverty, poverty line, multidimensio- 
nal poverty, multidimensional poverty index. 


Goal 2 Zero hunger Agricultural product, agricultural production, agricultural productivity, environ- 
ment, agricultural sector, safe food. 


Goal 3 Good health Health centers, environmental sanitation, public health, family planning, repro- 
and well-being ductive health, sexual health, work accident, work accident. 

Goal 4 Quality edu- Educational infrastructure, early childhood, vocational training, preschool 

cation education, university education, higher education, secondary education, drinking 


water, educational infrastructure, scholarships available, qualified teachers, tea- 
cher training, high enrollment, labor law, adults, literacies, literacy, literate, high 
enrollment, high school fees, illiterate, illiterate, quality learning, good learning, 

good school, good teacher, good education, good teaching, good school. 
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SDGS 


Related words 


Goal 5 Gender equality 


Reproductive health, sexual health, physical violence, sexual violence, psycho- 
logical violence, forms of violence, sexual exploitation, labor law, reproductive 
rights, domestic work. 


Goal 6 Clean water and 
sanitation 


Open defecation, street poop, environmental sanitation, water resources, drin- 
king water. 


Goal 7 Affordable and 
clean energy 


Electric power, street lighting, power service. 


Goal 8 Decent work 
and economy growth 


Tax incentives, environment, labor law, child labor, child soldiers, human traf- 
ficking, forced labor, labor rights, labor law, safe work, precarious employment, 
migrant workers, jobs. 


Goal 9 industry, inno- 


Economic development, rural area, sustainable city, bad connection, slow con- 


vation and infrastruc- nection. 

ture 

Goal 10 Reduced Sexual harassment, human rights. 
inequalities 


Goal 11 Sustainable 
cities and communities 


Private sector, urban area, public roads, housing project, sports venues, sustai- 
nable city, sexual harassment, harsh winter, housing construction. 


Goal 12 Responsible 
consumption and 
production 


Organic waste, environment, solid waste, teacher training, teacher training, ma- 
terial consumption, responsible consumption, sustainable consumption. 


Goal 13 Climate action 


Secondary education, mitigation activities, improve education, extreme weather 
conditions, climate change, early warning. 


Goal 14 Life below 
water 


Marine biodiversity, marine technology, scientific knowledge, research activities. 


Goal 15 Life on land 


Drinking water, global warming, climate change, stop deforestation, ecosystems 
in planning, terrestrial ecosystems. 


Goal 16 Peace, justice 
and strong institutions 


Micro-trafficking, armed groups, armed conflict, armed group, extorted, sexual 
abuse, sexual harassment, criminal gangs, illicit weapons, arms trafficking, work- 
place harassment, armed conflict, right to vote, human rights. 


Goal 17 Partnerships 
for the goals 


Economic development, internet, internet of things. 


Algorithm 1. Training document by multinomial naive bayes 


Output: Vocabulary V, Prior Knowledge, Likelihood condprob 
a) Extract vocabulary V from document D 
b) Calculate the number of N documents D 


Calculate Nc as number of D documents that have class c 
Calculate prior [c] = Nc / N 
Combine all text in document D that has class c into textc 


Calculate Tct as the number of tokens appearing from textc which has class c 


Als 

2. Input: Document D, Class C 
35 

4. 

Bi. 

6. c) For every cec 
Vs 

Bis 

Sh 

TOs for every t V 
CI 

T2. for every t V 
ESIA 


Calculate Likelihood condprob [t] [c]= formulae (2) 
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The Naive Bayes Classifier performance can be improved by using corpus data that has 
been created and developed in the previous stage. The use of corpus aims to give more 
weight to the parameters of the probability value, for each token listed in the corpus. The 
corpus used is the corpus that deals with the topic of hotel parameters, namely comfort, 
cleanliness, location of the hotel, food, and friendly service. 

Corpus value weights are obtained from probabilistic values. The occurrence of the 
term t on the existing topic, the goal is to normalize the weight. In this study using the 
proportionality of token numbers for each class c, positive classes p + = 0.65 (for inclusion 
into a class) and negative p- = 0.35 (for not inclusion into a class) in the data sequence. So 


that condprob can be calculated by a formula such as, 


score[c] = Xyey log(condprob[t][c] x (1+ Œrer Wke X pe))) (3) 


To get a score for each class [c] can use the following formulae. 


— _ Tet 
Xe ev Tet! 


condprob|t][c] X (1 + Qeex Wke X pe)) (4) 
With the knowledge base generated, the algorithm can make inferences and reasoning 
based on the input from the new interviews to generate predictions regarding the SDGs 


and targets that are related to the inputs. 


Belief{ Belief{ 
id: problem_space_ODS id: meta_3_x 
ISA: [Problem] ISA: [TargetODS] 
HAS: { HAS: { 
dataset: learning _dataset_RBHMCM_ODS holonym: ODS_x 
} meronym: [ 
} droga, 
vicio 
Belief { ] 


id: learning_dataset_RBHMCM_ODS } 
ISA: [Dataset] } 


HAS: { 

cols: [ Belief{ 
has_col_meta_1_x, id: b_a droga_meta_3_x 
has_col_meta_3_x, ISA: [CellDataset] 
has _col_ meta 4 x, HAS: { 

Te field: droga 

cells: [ head: meta_3_x 
b_a_droga_meta_1_x, probability: 0,06 


b_a_droga_meta_3_x, } 
b a droga meta 4 x } 
] 
} 
) 


Belief{ 
id: has_col meta 3 x 
ISA: [ColDataset] 
HAS: { 
head: meta_3_x 
probability: 0,9 
} 

+ 


Figure 3. Semantic network created from the terms processed by the algorithm. Part I. 
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id:b_a_droga_meta_l_x 


j idmeta 1 x id:problem_space_ODS 
a (B) 
P — 
SE probability:0, Y 
ae / 
e 
SÁ 
==—— 
== 
/ a J 
/ id:b a droga meta 3 x A 
e 
id:met. 
id:droga y Mdimeta 3 x A 
a 
B (P) we id:learning dataset_RBHMCM_ODS 
be y 3 | 
A A | 
\ probability:0,06 Meta j 
Meta 
id:b a droga meta 4 x 
So | 
Se 


probability: 0,04 
Figure 4. Semantic network created from the terms processed by the algorithm. Part Il. 
For prediction, the algorithm deployed into the ECHO App captures the information using 


Speech Recognition. The testing phase based on the results of training data can be used 


Algorithm_2. 


1. Algorithm 2. Testing document by multinomial naive bayes 
2. Input: Class C, Vocabulary V, Prior Knowledge, Likelihood condprob, Test document d 
3. Output: arg max,ec score[c] 
4. Extract token W from test document d based on Vocabulary v b). 
5. For each cec 

Calculate score [c] = logprior[c] 

For every t W 

Calculate score [c] + = logcondporb[t][c] 


6. Count arg Max¿e, score[c] 


The backend of the application and the main algorithm were developed using the frame- 
work Nodejs in JavaScript. The front-end was developed with the Vue.js framework, while 
semantic and procedural memory data were stored in MongoDB. Below is an example of 


the prediction output for the algorithm in the ECHO App. 
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Entrevista de Prueba 


a O Problemática 


Única Pregunta 
ENTREVISTA DE PRUEBA 


Indique cuál es el principal problema que aqueja el territorio donde usted vive 


que tiene mi comunidad Es la falta de vías de acceso adecuadas para las veredas la parte rural y esto dificulta el 
acceso a la educación especialmente de niños y jóvenes 


EDUCACIÓN 
DE CALIDAD 


DETENER W LIMPIAR X 


ATRAS FINALIZAR 


Figure 5. Window for information input. 


echo Inicio — EVENTOS PERFIL SALIR 
¿Describa la principal problemática que aqueja a su comunidad? 

siembra con una plataforma que permite acualquier persona sembrar desde sucelular de una manera fácil y asequibleasí fomentamos la 

ñ y b 1 leccionan el cultivo que: 

le hacerlo real eliminamos 

| beneficio a las dost eliminamos las barrera: ión para los 


clientes ingresan a si 


producción agrícola dep: y mediano: 


unimos el 


granjeros asociados se 


sembrar virtualmente y uno 


cial yambientalllevamos di 


ogía y además nos interesa 
para nuestros granjeros 


de 


sy fomentamos la reforestació1 


195 granjeros siembra con la nt 


¡anjeros asociados con un mayor ingreso con respect 


sembrar[Música] 


húmero de palabras 174 


EDITAR | LIMPIAR 


INDUSTRIA 
9 iuovacióne 
INFRAESTRUCT 


$ > 
us J 
| incomesero | 


1 REDUCIR LAS 
DESIGUALDADES] 


PS 


(=> 


w 


Figure 6. Prediction of the algorithm. 


4.4. Demonstration 
The descriptions were collected verbally for three years and contain regionalisms related 


to the SDGs from the Caribbean region, Antioquia and Bogotá. The tool was tested in the 
cities of Cartagena and Medellín, where the application processed 3456, 5249 and 2345 
descriptions of community problems. To facilitate the gathering of testimonies through the 


ECHO tool, a 5-day information gathering session was held within the framework of the 
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project “Testing ECHO amplifying the citizen’s voices for the SDG’s”. More than 30 univer- 
sity students participated in the sessions, who were volunteers to collect the problems of 
the communities and were trained in the use of the ECHO tool. Cell phones with Android 


operating system, microphone and internet connection were used to collect information. 


Consolidado ODS - Pruebas Medellin - Testimonios procesados - 13920 


Figure 7. Event registration window for collecting problems in the community. 


Evaluation 
The corpora were taken through oral interviews with people (men and women) from 
diverse social levels (mainly 1, 2, 3 social levels). The interviewer recorded the interview 
with a cell phone and instantly or when a WIFI connection was able, all the information 
was gathered and analyzed. Thus, the system shows how people think about their necessi- 
ties related to the United Nations’s goals. This information will be used to promote pros- 
perity while protecting the planet. Initially, the algorithm presented a level of precision of 
84% in the translation of the corpus into the language of the SDGs. 

Precision refers to the proportion of concepts that is accurately detected relative to all 
the concept elements that are represented in the corpus (Brewster et al., 2004). The numer- 
ator of Eqs. (1) describe that knowledge that is accurately detected and corresponds to the 


intersection of the relevant entities and the retrieved entities. 


Wecisión = |{relevantentities }n{retrievedentities}| 
p |{retrievedentities}| ( ) 
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The erroneous results were analyzed by a team of OSDGsDS experts, linguists, and data 
engineers to determine the causes of the failures. In this process it was found that region- 
alisms were the main cause, in this sense the application training was refined with a corpus 
that contained the regionalisms expressed in the problem descriptions. Thus, on the last 


day of testing in both cities, a precision of 90.1% was obtained. 


Conclusion 

The main result of this study is a large digital corpus of descriptions of problems related to 
compliance of the SDGs in three regions in Colombia. The potential of the corpus was 
verified by evaluating the results of a Bayesian network algorithm. In the evaluation, the 
standard processing of the text by the algorithm produces a high rate of correct answers. 
The use of semantic methodology for the organization of information in semantic fields 
was very efficient. Semantic field was organized through hyperonyms and hyponyms which 
allow to organize all the information in key words related for each goal. The system took 
every word in discourse and classify it according to a specific sustainable development 
goal. Starting from oral discourse, organizing it and taking it to quantitative data, it verifies 
that words can be used to be able to analyze a discourse with practical uses. This type of 
methodology allows quantifying large amounts of oral information that are extracted from 
interviews to find out what people think about a specific topic, for this research, about the 


17 sustainable development goals. 
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CHAPTER XIV 


Correlación entre la metáfora 
orientacional BUENO ES ARRIBA / MALO ES 
ABAJO y polaridad positiva/negativa 
en verbos del español: un estudio 
con estadística de corpus! 


Correlation between the 
orientational Lt dial GOOD IS UP / 
BAD IS DOWN and positive/negative 
polarity in Spanish verbs: a study 
with corpus statistics 


Benjamin López Hidalgo, Irene Renau & Rogelio Nazar 
Pontificia Universidad Católica de Valparaíso -Chile 


Resumen: La metáfora conceptual se ha estudiado ampliamente mediante lingüís- 
tica de corpus, pero es necesario seguir proponiendo métodos estadísticos que per- 
mitan hallar evidencia cuantitativamente significativa sobre su uso en el discurso. 
Además, la metáfora orientacional en particular ha sido poco abordada en la inves- 
tigación sobre metáfora conceptual. Esta investigación tiene como objetivo compro- 
bar la relación entre la orientación vertical (ArrIBAa/ABAJO) y la polaridad (PosITIVA/NEGATIVA, 
respectivamente) que existe en las metáforas orientacionales del tipo BUENO ES ARRIBA 
/ MALO ES ABAJO halladas en corpus. Se seleccionaron 10 verbos del español con signifi- 
cado ‘subir’ / ‘bajar’ y se midió su asociación en las concordancias del corpus con 


unidades léxicas con significado *positivo' / 'negativo' (resp.), etiquetadas mediante 


Agradecemos al Proyecto Fondecyt Regular n.° 1231594 (ANID, gobierno de Chile). 
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un lexicón de polaridad. Los resultados indican que existe tal asociación en el 80% 
de los casos analizados. 

Abstract: Conceptual metaphors have been extensively studied by means of corpus 
linguistics, but there is a need to continue proposing statistical methods that allow 
us to find quantitatively meaningful evidence on its use in discourse. Moreover, ori- 
entational metaphors in particular are yet to be sufficiently addressed in conceptual 
metaphor research. The present research aims to test the relationship between ver- 
tical orientation (up/bown) and polarity (Positive/NeGaTive, respectively) that exists in ori- 
entational metaphors of the type coop is up / BAD Is pown found in corpora. Ten Spanish 
verbs with meaning ‘up’ / ‘down’ were selected and their association was measured 
in corpus concordances with lexical units with ‘positive’ / ‘negative’ value (resp.), la- 
beled by means of a polarity lexicon. The results indicate that such an association 


exists in 80% of the analyzed cases. 


Introducción 

La metáfora orientacional (Lakoff & Johnson, 1980, 1999; Lakoff, 1993; Langacker, 1986; 
Kóvecses, 2002, 2008; Soriano, 2012) es un tipo de metáfora que organiza un sistema con- 
ceptual en términos de una orientación espacial. Tal es el caso de los conceptos FELIZ, 
BUENO, OPTIMISTA... Y TRISTE, MALO, PESIMISTA..., que son considerados de forma univer- 
sal como positivos y negativos, respectivamente. En estos casos, la metáfora orientacional 
FELIZ, BUENO, OPTIMISTA... ES ARRIBA / TRISTE, MALO, PESIMISTA... ES ABAJO funciona 
como un dispositivo conceptual que permite organizar, expresar, comprender y reforzar 
cognitivamente estos conceptos abstractos. Por ejemplo, en expresiones como “Mi moral 
está por los suelos” se hace explícita la relación entre ‘estar pesimista y la posición ‘abajo a 
través de la locución verbal por los suelos; al contrario, en “Mi moral está por las nubes” se 
muestra una relación entre ‘arriba’ y ‘optimista. Esta relación entre la orientación espacial 
ARRIBA/ABAJO y la consideración de algo como POSITIVO/NEGATIVO se ha evidenciado 
empíricamente sobre todo a partir de la psicología experimental y también de algunos 
estudios de corpus (véase el apartado 2). Sin embargo, la evidencia es escasa y, en particu- 
lar, faltan propuestas que permitan observar este fenómeno cognitivo a través de expresio- 
nes en el discurso, de forma cuantitativamente significativa y con métodos que permitan 


replicar los estudios en distintos tipos de textos y lenguas. 
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En vista de lo anterior, esta investigación se propuso comprobar si la metáfora orienta- 
cional BUENO ES ARRIBA / MALO ES ABAJO puede evidenciarse empíricamente a través del 
análisis estadístico de corpus. Para ello, se seleccionaron verbos del español que, en su 
acepción prototípica, tuvieran el significado de “subir” o ‘bajar; y se analizó su coocurrencia 
con unidades léxicas con sentido de ‘bueno’ o ‘malo, respectivamente. Se etiquetaron estas 
unidades como BUENO O MALO mediante un lexicón de polaridad, que tiene ya previamen- 
te etiquetadas las unidades léxicas como “positivas” o “negativas: 

La hipótesis que se planteó es que los verbos con significado “subir” (como ascender, 
elevar, levantar, etc.) coocurren más a menudo con unidades léxicas (sustantivos, adjetivos, 
verbos y adverbios, locuciones incluidas) con significado ‘bueno (ej., maravilloso, alegrar, 
felizmente, bondad, en las nubes), y los verbos con significado ‘bajar’ (como caer, descender, 
tumbar, etc.) coocurren más a menudo con unidades con significado ‘malo (ej., horrible, 
entristecer, desgraciadamente, maldad, a duras penas, etc.). El trabajo, como ya se indicó, 
tiene interés al proponer un método puramente estadístico y, por tanto, fácil de aplicar a 
otras lenguas y a distintos corpus, y la única herramienta externa utilizada (el lexicón de 
polaridad) es muy común en muchos idiomas debido a su uso extendido en el área de la 
minería de opinión (Alm et al., 2005; Baccianella et al., 2010). Desde un punto de vista más 
amplio, este trabajo es un aporte a los estudios de metáfora en corpus, y en particular, a la 


evidencia empírica sobre la teoría de la metáfora conceptual en el discurso. 


Antecedentes y marco teórico 
La teoría de la metáfora conceptual (Lakoff & Johnson, 1980, 1999; Lakoff, 1993; Langacker, 
1986; Kóvecses, 2002, 2008; Soriano, 2012) postula que la metáfora es un mecanismo cog- 
nitivo utilizado por el ser humano para comprender el mundo o expresar su concepción 
de la realidad; una metáfora conceptual toma como dominio de origen una realidad cono- 
cida y generalmente concreta y material, y la utiliza para categorizar el dominio de destino, 
correspondiente a una realidad más desconocida y abstracta. Las metáforas conceptuales 
pueden expresarse mediante dibujo, fotografía, danza, música, etc., pero es muy común su 
uso en expresiones lingüísticas, no solo en literatura, sino en cualquier discurso de la vida 
cotidiana. Así, a través de expresiones como dejamos la vida en la cancha, el equipo atacó 
con fuerza, salimos derrotados en la final del campeonato, etc., el FUTBOL (dominio de des- 
tino) es caracterizado como una GUERRA (dominio de origen) a través de la metáfora 
conceptual EL FÚTBOL ES UNA GUERRA. 

El tipo de metáfora mencionado se denomina estructural porque organiza el conoci- 


miento del dominio meta mediante la estructura conceptual importada del dominio fuen- 
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te. Las metáforas ontológicas, por su lado, sirven para caracterizar elementos abstractos 
(como eventos, emociones, experiencias, ideas, etc.) mediante entidades materiales. Por 
ejemplo, LA MENTE ES UNA MÁQUINA es una metáfora ontológica que permite comprender 
la mente como un artefacto complejo; esta metáfora se observa en múltiples expresiones 
lingúísticas, como mi cerebro está un poco oxidado hoy, tengo el disco duro demasiado lleno 
de distracciones, etc. 

La metáfora orientacional, que centra nuestra investigación, fue definida por Lakoff 8 
Johnson (1980, 14) como “another kind of metaphorical concept, one that does not struc- 
ture one concept in terms of another but instead organizes a whole system of concepts with 
respect to one another”. En otras palabras, da coherencia a un conjunto de conceptos, de- 
bido a que estos comparten el mismo dominio de origen (Langacker, 1986). Lakoff y John- 
son (1980, 14) las llamaron metáforas orientacionales “since most of them have to do with 
spatial orientation: up-down, in-out, front-back, on-off, deep-shallow, central-peripheral”. 
Por ejemplo, los conceptos FELIZ / BUENO / SALUD / PODER se unifican bajo el concepto 
ARRIBA, mientras que TRISTE / MALO / ENFERMEDAD / AUSENCIA DE PODER se unifican en 
ABAJO: estas dos estructuras conceptuales, a su vez, se unifican bajo una de las metaforas 
orientacionales mas universales: BUENO ES ARRIBA / MALO ES ABAJO. 

Existe una linea ya extensa de trabajos que han abordado la teoria de la metafora con- 
ceptual, sobre todo la metáfora estructural, desde el análisis de corpus (Charteris-Black, 
2000; Semino et al., 2004; Deignan, 2008; Semino et al., 2016; Potts & Semino, 2019 ; Liu 
& Mo, 2020). Este enfoque ha permitido comprobar cómo las metáforas, empleadas en 
discursos de diversos tipos (prensa, textos especializados, escritura académica, etc.) con- 
tribuyen a configurar y transmitir determinados marcos cognitivos y culturales. En el caso 
de la metáfora orientacional en concreto, las evidencias parten más bien de los estudios 
experimentales, con algunos pocos estudios de corpus. El enlace entre orientación espacial 
ARRIBA / ABAJO y la connotación POSITIVA / NEGATIVA, respectivamente, se ha evidencia- 
do en el área de la psicología experimental (Meier & Robinson, 2004, 2006; Crawford et 
al., 2006; Cassanto & Dijkstra, 2010; Santana & De Vega, 2011). En estos trabajos se con- 
firma empíricamente que el recuerdo de experiencias positivas facilita el realizar activida- 
des motrices ascendentes, pero entorpece la actividad motriz cuando es descendente (Ca- 
sasanto & Dijkstra, 2010). Asimismo, se compueba que colocar tarjetas de vocabulario en 
ubicaciones particulares después de estudiarlas ayudan a los estudiantes a aprender las 
definiciones de palabras con valencia emocional positiva (colocación arriba) o negativa 
(colocación abajo) (Casasanto & De Bruin, 2019). Según estos estudios, pues, existe una 


correlación positiva entre el concepto ARRIBA y BUENO, Y ABAJO Y MALO. 
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Las metáforas orientacionales de diversos tipos se han estudiado también en el discur- 
so económico, político y del marketing. Por ejemplo, Fernández Rodríguez (2020) compa- 
ra corpus de textos de economía en español y en francés y estudia las expresiones metafó- 
ricas orientacionales. En sus datos, el 75% de estas metáforas corresponden a la orientación 
ARRIBA / ABAJO (ej., “la inflación china baja”, “la caída de los precios de los alimentos”, cf. 
Fernández Rodríguez, 2020, p.121), y en otros casos a la orientación ENTRAR / SALIR, CEN- 
TRO / PERIFERIA, etc. Estas metáforas, como indican Graupe y Steffestun (2018), sirven para 
facilitar la comprensión de conceptos abstractos de la economía mediante conceptos más 
intuitivos y cercanos, como ocurre con las metáforas conceptuales en general (Lakoff & 
Johnson, 1980). En determinados textos, no obstante, pueden dificultar también el pensa- 
miento crítico en tanto que proponen marcos conceptuales que no se discuten: por ejemplo, 
el mercado visto como un CONTENEDOR que se conceptualiza con la oposición DENTRO / 
FUERA(cf. Graupe & Steffenstun, 2020). Luque (2020) también encuentra la metáfora orien- 
tacional de tipo BUENO ES ARRIBA / MALO ES ABAJO en un corpus de discursos políticos 
euroescépticos (por ejemplo, “esta Unión Europea ha caído en una serie de errores de los 
que será difícil recuperarse”, Luque, 2020, p.358). Feng Dezheng (2011), desde una perspec- 
tiva multimodal, analiza el sistema de orientaciones espaciales en el marketing, en especí- 
fico en anuncios publicitarios de automóviles, donde identifica metáforas orientacionales 
como IDEAL / ABSTRACT IS UP — REAL / CONCRETE IS DOWN, entre otras del mismo tipo. 
Finalmente, el uso de metáforas orientacionales se ha analizado también en la literatura. 
Así pues, Zhao, Han y Zhao (2019) realizaron un análisis de corpus de las metáforas con- 
ceptuales en Pavilion of Women, de Pearl S. Buck, y en su estudio hallan que las metáforas 
orientacionales son las menos frecuentes, aunque de ellas, la más frecuente es UP Is GOOD / 
DOWN IS BAD (por ejemplo, “She let her heart down”, cf. Zhao, Han & Zhao, 2019, p.107). 

Las mencionadas aportaciones contribuyen al desarrollo de la propuesta seminal de 
Lakoff y Johnson (1980), aunque, como se ha podido comprobar, las investigaciones son 
escasas. Además de ello, las propuestas de corpus que han estudiado este tipo de metáfora 
han empleado en ocasiones software de gestión de corpus, como AntConc o Wordsmith, 
pero el análisis en sí ha sido manual y restringido a corpus de pequeñas dimensiones. Ello, 
como se indicó en la introducción, motiva la presente propuesta, que plantea un método 
de explotación de grandes cantidades de datos, lo que supone un nuevo avance hacia el 


estudio de este tipo de metáfora conceptual en el discurso. 
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Marco metodólogico 


Materiales 

Para llevar a cabo esta investigación, se utilizó un listado de verbos con significado “arriba” 
y “abajo, un corpus de trabajo y un lexicón de polaridad que permitiese etiquetar como 
“positivas” o negativas” las unidades léxicas (sustantivos, adjetivos, verbos y adverbios, 
incluidas expresiones pluriverbales) que coocurrieran con los verbos. Naturalmente, en 
algunos casos los adverbios de negación pueden modificar la polaridad positiva o negativa 
de las palabras, pero ello representa una variable aleatoria y, como tal, no puede afectar los 
resultados. 

En cuanto al listado de verbos empleado, se seleccionaron unidades que prototípica- 
mente tuvieran significado ‘arriba’ y “abajo. Para ello, se buscaron verbos definidos, en su 
primera acepción, mediante los hiperónimos subir o bajar en dos diccionarios electrónicos 
(Battaner, 2003; RAE, 2014). Para el primer diccionario, se utilizó la búsqueda compleja 
del CD-ROM, y para el segundo se empleó la búsqueda avanzada de la plataforma Encla- 
veRAE. Del listado que se obtuvo, se seleccionaron los 5 de cada uno más frecuentes, 
menos ambiguos y comunes a las distintas variedades del castellano: ascender, elevar, esca- 
lar, levantar y trepar como hipónimos de subir, y agachar, caer, derribar, descender y tumbar 
en el caso de bajar. 

Como corpus de trabajo, se utilizó el EsTenTen (Kilgarriff & Renau 2013), en concreto, 
la versión Spanish Web 2011 (esTenTen11, Eu + Am), que consta de, aproximadamente, 
10.000 millones de palabras, divididas entre el español peninsular y el español de Latino- 
américa. 

Finalmente, se utilizó el lexicón de polaridad de Martínez (2018) para etiquetar los 
adjetivos, verbos, sustantivos y locuciones con carga positiva o negativa que coocurrieron 
con los verbos seleccionados. Un lexicón de polaridad es un conjunto de unidades léxicas 
que presentan una carga subjetiva que dirige hacia lo negativo o lo positivo, como aburrir- 
se (-), admirable (+), etc. (Fauconnier, 1975; Giannakidou, 2001). Los lexicones de polaridad 
se utilizan en minería de opinión para, por ejemplo, el análisis de la expresión del texto a 
la voz (Alm et al., 2005), la búsqueda de contenido emocional en foros o noticias (Lloyd et 
al., 2005; Balog et al., 2006) o el análisis de debates políticos y las respuestas a las pregun- 
tas (Yu & Hatzivassiloglou, 2003). Actualmente, el análisis de sentimiento ha tenido un 
gran desarrollo (Bosco et al., 2013; Cambria et al., 2014; Mäntylä et al., 2018; Nassif et al., 
2020) y sus herramientas, recursos y métodos se han ido ampliando más allá de la minería 


de opinión; la presente investigación es un ejemplo de ello. 
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El lexicón de polaridad utilizado en esta investigación cuenta con aproximadamente 
5.000 unidades léxicas, cada una en una línea del fichero seguidas de [N] en caso de ser 
negativa o de [P] en caso de ser positiva (véase un fragmento en la tabla 12 modo de ejem- 
plo), mientras que las unidades neutras (del tipo mesa, estar, ahí, etc.) se encuentran au- 
sentes del lexicón. Algunos de los 10 verbos seleccionados estaban recogidos en el lexicón 
de polaridad empleado, por lo que, naturalmente, fueron deshabilitados del listado para 


que no alteraran el análisis del algoritmo. 


Tabla 1. Fragmento del lexicon de polaridad utilizado. P = positivo; N = negativo. 


Afable P 
Afectado N 
Afectar N 


Afecto P 


Afectuoso P 


Métodos 

En primer lugar, se preparó la muestra y se creó la herramienta de medición, que consistió 
en un script desarrollado en el lenguaje de programación Perl. Este script registra la fre- 
cuencia de coocurrencia en el corpus entre los verbos y las unidades del vocabulario de 
polaridad. En segundo lugar, se establecieron los criterios de análisis que nos permitieron 
controlar mejor las variables. En tercer lugar, se aplicaron pruebas preliminares en otros 
grupos de verbos que sirvieron para probar la validez del método, con el objetivo de, en la 
última etapa, aplicarlo una vez validado por dichas pruebas. 

Para preparar la muestra se extrajo, con la herramienta virtual Jaguar (Nazar et al., 2008; 
http://www.tecling.com/jaguar), una muestra aleatoria de 5.000 concordancias por cada 
uno de los 10 verbos (ascender, elevar, escalar, levantar, trepar, agachar, caer, derribar, des- 
cender y tumbar), cada una con una ventana de contexto de maximo 10 palabras a la iz- 
quierda y 10 palabras a la derecha (el total de la muestra, pues, fue de 50.000 concordancias). 
El corpus EsTenTen tiene etiquetado morfosintáctico con Tree Tagger (Schmid, 1994), que 
durante décadas se consideró el sistema más avanzado para ello, tanto en castellano como 
en otras lenguas, lo que permitió obtener las concordancias con las unidades léxicas lema- 
tizadas. Esto facilitó el cruce con las unidades del lexicón de polaridad, que se encuentran 
también lematizadas. Como último paso de preparación de este material, cada muestra de 


5.000 concordancias de cada verbo se trasladó a un archivo distinto. 
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Con el objetivo de medir la polaridad de las unidades léxicas que coocurren con algu- 
no de los 10 verbos en cuestión, el script en lenguaje Perl que desarrollamos permite buscar, 
evaluar, agrupar y contar las unidades léxicas del lexicón en nuestra muestra. Este código, 
en concreto, se separa en tres acciones que se describen a continuación: 

1 Lectura e instrumentalización del lexicon de polaridad. Se asignó un valor a cada unidad 
léxica del lexicón de polaridad para luego reconocer y contabilizar dichas unidades en 
las concordancias. El objetivo fue hacer que tanto las unidades léxicas negativas como 
las positivas del lexicón sumaran 1 por cada vez que aparecieran en una concordancia 
(a menos que la unidad léxica tuviese 3 o menos letras: esto se hizo para evitar ruido de 
adverbios de negación, entre otros problemas). 

2 Clasificación de concordancias. Luego, se realizó un conteo de las unidades léxicas posi- 
tivas y de las negativas que se encontraron en cada concordancia. Como output, se 
obtuvo la polaridad de cada concordancia. Si la concordancia presentaba más casos de 
unidades léxicas positivas que negativas, la concordancia se clasificó como positiva, y 
viceversa. Si se contaba el mismo número de unidades léxicas positivas que negativas, 
la concordancia se clasificó como neutra. Por último, si no había unidades léxicas del 
lexicón de polaridad en la concordancia, esta también se clasificó como neutra. 

3 Clasificación de verbos. Finalmente, se sumó el resultado de la clasificación anterior a 
nivel de concordancias por cada verbo, con el fin de determinar la tendencia del verbo 
hacia positivo” o negativo. La mayor cantidad de concordancias etiquetadas como po- 
sitivas por cada verbo daba como resultado que el verbo se clasificaba como 'positivo, y 


viceversa. 


Análisis de datos 


Criterios de análisis 

Una vez conformados los materiales y establecidos los métodos se tomó la decisión de fijar 
un umbral de comportamiento neutro de los verbos. En concreto, se postuló que si un 
verbo poseía un 51% o más del total de concordancias que no resultaran ni positivas ni 
negativas, ese verbo se consideraría neutro, ya sea por una igualdad entre los resultados 
locales (+) y (—) en el verbo en cuestión o porque fueron más las concordancias en las que 
el algoritmo no encontró unidades léxicas del lexicón de polaridad, debido a la extensión 
de este último. Con esto se controló que la cantidad de concordancias con polaridad fuera 


significativa respecto con el total de concordancias por cada verbo. Para determinar la 
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significación estadística de los resultados se empleó el nivel alfa de 0.05, tal como es habi- 


tual en ciencias sociales. 


Pruebas preliminares 

Antes de analizar el grupo de verbos que eran objeto de estudio, se realizaron pruebas con 
dos grupos de verbos para evaluar la efectividad del método. La prueba 1 se realizó para 
medir la confiabilidad del instrumento, y consistió en aplicar el algoritmo a 5 verbos con 
sentido positivo y 5 verbos con sentido negativo, en ambos casos no vinculados a las meta- 
foras orientacionales que son objeto de estudio y con sentidos positivo o negativo muy 
evidentes: agradecer, bendecir, felicitar, festejar, sonreír, destruir, empeorar, entristecer, 
lamentar, llorar. La prueba 2 consistió en observar el resultado del algoritmo con 10 verbos 
a los que no se podría asociar a priori un sentido positivo ni negativo, es decir, verbos 
considerados neutros: pensar, decir, estar, dibujar, escribir, tomar, traducir, consistir, leer, 
vestir. Ambas pruebas fueron realizadas con el mismo corpus empleado para los verbos en 


estudio. Los resultados de estas dos pruebas preliminares se muestran en la tabla 2. 


Tabla 2. Resultados de las pruebas preliminares. 


Prueba 1 
Verbos Total + Total - % concor- Polaridad Valor p 
dancias con resultante 
polaridad del +/- 
verbo 
agradecer 3260 366 73 + < 2.2e-16 
bendecir 3143 449 72 + <2.2e-16 
felicitar 3194 366 Al + < 2.2e-16 
festejar 2545 685 65 + <2.2e-16 
sonreir 2504 1045 71 t < 2.2e-16 
destruir 1339 1998 67 - < 2.2e-16 
empeorar 1242 2131 67 - < 2.2e-16 
entristecer 963 1278 66 - = 2.85e-11 
lamentar 1357 1916 65 - < 2.2e-16 
llorar 1569 1909 70 - = 8.156e-09 
Prueba 2 
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Verbos Total + Total - % concor- Polaridad Valor p 
dancias con resultante 
polaridad del +/- 
verbo 

pensar 1873 1336 64 ES < 2.2e-16 
decir 1904 1215 62 + <2.2e-16 
estar 1987 1233 64 + < 2.2e-16 
dibujar 2096 969 61 + <2.2e-16 
escribir 1958 1013 59 + < 2.2e-16 
tomar 1865 1211 62 + < 2.2e-16 
traducir 2177 1064 65 EE < 2.2e-16 
consistir 2126 921 61 + < 2.2e-16 
leer 2006 982 60 ap <2.2e-16 
vestir 1985 1034 60 + <2.2e-16 


La tabla 2 indica que, con respecto a la prueba 1, ninguno de los 10 verbos superó el umbral 
de comportamiento neutro que se estableció (51% o más), lo que implica que la cantidad 
de concordancias evaluadas como positivas o como negativas es significativa en conside- 
ración al total de concordancias por cada verbo. En segundo lugar, se observa que el algo- 
ritmo reconoció en el grupo de verbos de la prueba 1 los 5 verbos de polaridad positiva 
como positivos y los 5 verbos de polaridad negativa como negativos, tal como se esperaba. 
Por otra parte, se puede observar que ningún verbo presenta un valor p mayor a 0.05, por 
tanto, ninguno de estos resultados puede atribuirse al azar, lo que demuestra que hay una 
dependencia estadística entre estos 10 verbos y la polaridad que obtuvieron como resulta- 
do. 

En el caso del grupo de verbos de la prueba 2, los 10 verbos presentaron polaridad 
positiva (+), lo que constituye un hallazgo imprevisto. Igual que en la prueba 1, en este caso 
el valor p también fue siempre menor a 0.05, lo que significa que la probabilidad de que 
estos resultados hayan sido producto del azar es remota (0.001). Este resultado indica 
probablemente que ciertos verbos, aunque no tengan una polaridad aparente, generalmen- 
te presentan una tendencia hacia la polaridad positiva (+); por ejemplo, se identifican ac- 
tividades como pensar, leer o escribir como positivas en la mayoría de los casos. La profun- 
dización en el estudio de este hallazgo, que no se encuentra entre los objetivos de la 


investigación, se deja para trabajo futuro. 


Resultados y discusión 
Como ya se mencionó en el apartado 3.1, se analizaron 5 verbos con orientación arriba 


(ascender, elevar, escalar, levantar y trepar) y 5 verbos con orientación abajo (agachar, caer, 
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derribar, descender y tumbar), que sirvieron para reflejar el binomio orientacional ARRIBA / 
ABAJO. Para analizar su relación con aquellas unidades léxicas que reflejan los conceptos 
BUENO / MALO se aplicó el método descrito en el apartado 3, una vez ya realizadas las eva- 
luaciones que permitieron asegurar la confiabilidad (prueba 1) y flexiblidad (prueba 2) del 


instrumento de medición. Los resultados del estudio se presentan en la tabla 3. 


Tabla 3. Resultados del análisis del grupo de verbos en estudio. 


Verbos Total+ Total- %concor- Dif.total+  Polaridad Chi cua- Valor p 

dancias ytotal- resultante drado 

con pola- +/- 

ridad del 

verbo 

ascender 688 078 55 610 er 1.345.264 < 2.2e-16 
elevar 2055 131 64 924 + 2.679.774 < 2.2e-16 
escalar 1803 1474 66 329 a 330.305 = 9.072e-09 
levantar 665 472 63 193 + 118.741 = 0.0005692 
trepar 811 044 57, 767 + 2.060.557 <2.2e-16 
agachar 508 1670 64 162 - 8.258 = 0.004057 
caer 304 1890 64 586 - 1.075.128 <2.2e-16 
derribar 1425 1846 65 421 - 541.856 = 1.824e-13 
descender 410 1459 57 49 - 0.8369 = 0.3603 
tumbar 535 1620 63 85 - 229 = 0.1302 


En la tabla 3 se muestra, en primer lugar, que ninguno de los 10 verbos superó el umbral 
de comportamiento neutro que se estableció (51% o más). El mayor porcentaje analizado 
se presenta en el verbo escalar con 66% y el menor porcentaje analizado se presenta en el 
verbo ascender con 55%), por lo que, como se explicó anteriormente, la polaridad fue esta- 
disticamente significativa en consideración al total de concordancias por cada verbo. En 
segundo lugar, los resultados arrojaron que los verbos de orientación ARRIBA se vinculan 
con el sentido positivo, mientras que los verbos de orientación ABAJO se vinculan con el 
sentido negativo. La probabilidad de que este resultado fuera por azar es de 0.001 y, por 
tanto, prácticamente nula. 

Para comprobar en cuántos casos existe o no dependencia estadística entre las dos 


variables, se aplicó el test del chi cuadrado, que arrojó que descender (0.3603) y tumbar 
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(0.1302) presentan un valor p mayor a 0.05 y, por tanto, los resultados no son estadistica- 
mente significativos. Los otros 8 verbos presentan, sin embargo, un valor menor al alfa 
0.05, lo que muestra que hay una dependencia estadistica entre estos verbos y el sentido 
positivo o negativo que se obtuvo como resultado de la aplicación del método. Es decir, en 
cuanto a la formulación de nuestra hipótesis, en el 80% de los casos esta se confirmó. 
Estos resultados, en consideración con lo estipulado en los criterios de análisis, permi- 
ten comprobar que existe una relación entre la variable orientación vertical y la variable 
polaridad positiva o negativa en contextos reales de uso de las unidades de análisis. Ello 
permite comprobar empíricamente y mediante métodos de estadística de corpus la metá- 
fora orientacional BUENO/FELIZ ES ARRIBA Y MALO/TRISTE ES ABAJO en un nivel lingitisti- 
co. Con ello se puede afirmar con un grado elevado de certeza que los verbos que presen- 
ten un sentido de ‘subir’ tenderán a formar parte de frases en las que se expresará un 
sentido “positivo, y los verbos con sentido ‘bajar’ tenderán a estar incluidos en frases con 


sentido negativo. Así, por ejemplo, véase la concordancia 45 de agachar: 


...lo he visto- dijo finalmente al tiempo que agachaba la mirada con tristeza... 


En este contexto se observa una polaridad negativa que es reconocida por el script al detec- 
tar una unidad negativa presente en el lexicón de polaridad utilizado (tristeza) y ninguna 
positiva; el resto de unidades (ver, finalmente, tiempo y mirada) son neutras. Un caso 


opuesto se muestra en la concordancia 32 de elevar: 


..cambios estructurales han permitido avanzar significativamente hacia la estabilidad, elevar la eficiencia de la 
economía... 


En este contexto, el script reconoció cuatro unidades positivas (permitir, avanzar, estabili- 
dad y eficiencia) y ninguna negativa (pues el resto son neutras: cambio, estructural, signifi- 
cativamente, economía). (Se recuerda que tanto agachar como elevar, igual que el resto de 
verbos en estudio, se excluyeron del lexicón para no interferir en los resultados y, por tanto, 
no fueron contabilizados como positivos ni negativos). 

Finalmente, el siguiente ejemplo (concordancia 14 de agachar) muestra que las catego- 
rías POSITIVO y NEGATIVO pueden ser controvertidas, lo que mueve a considerar que sería 


difícil obtener un 100% de precisión con este método, como es habitual en semántica: 


..ahora nos falta [-] a nosotros agachar la cabeza de una vez y reconocer [+] nuestros errores [-]... 
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En este caso, el algoritmo identifica las unidades faltar y error como unidades negativas y 
reconocer como positiva y, por tanto, adjudica un resultado de polaridad negativa a esta 
concordancia. Si bien la expresión agachar la cabeza es claramente negativa, podría consi- 
derarse que reconocer nuestros errores, y especialmente el conjunto del contexto, es una 
secuencia positiva. Esto ocurre también con adjetivos como gran(de) (+) o poco (-), que 
pueden generar secuencias de polaridad contraria a la del adjetivo aislado: gran pena (-), 
pocas críticas (+). Estos casos, si bien producen cierto porcentaje de error, se compensan 
con la gran cantidad de datos analizados (5.000 concordancias por cada verbo), lo que 
reduce el impacto de este tipo de secuencias en la muestra. 

Además, cabe destacar que los resultados arrojaron una mayor circulación de unidades 
léxicas positivas a nivel general de los verbos analizados, con independencia de la polaridad 
con la que fueron evaluados. Este fue un resultado sorprendente, sobre todo por la dife- 
rencia reflejada en el total de concordancias analizadas como positivas y en el total de 
concordancias analizadas como negativas (60% + frente a 40% total) de los verbos anali- 
zados (prueba 1, prueba 2 y grupo en estudio). Además, la prueba 2 dio como resultado la 
polaridad positiva en 10 de 10 verbos sin una polaridad aparente, lo que es otra prueba de 
esta tendencia. Asimismo, la mayor diferencia entre total + y total - se dio en los verbos 
evaluados como positivos, lo que habla de que, por lo general, tienen una polaridad más 
marcada que los negativos (véase la figura 1 para ampliar el panorama de los datos). 

En último lugar, el total de concordancias con polaridad en el total de verbos fue de 
95.102, es decir, un promedio de 64,1% del total analizado (148.389 concordancias) (véase 
la figura 1). Este resultado, si bien es estadísticamente suficiente, puede mejorar conforme 
se emplee un lexicón de polaridad más amplio o se amplíe el utilizado, y el instrumento de 


medición se vaya complejizando. 
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Figura 1. Porcentaje de diferencia entre total de polaridad + o - en cada verbo analizado (prueba 1, 2 y 
grupo de verbos en estudio). 


Conclusión y perspectivas 

Esta investigación se situó en la problemática de la metáfora conceptual y su estudio desde 
el análisis de corpus. En concreto, su enfoque radica en el análisis estadístico de un tipo de 
metáfora orientacional y su materialización lingüística en contextos reales de uso. Para 
observar el binomio ARRIBA/ABAJO se buscaron verbos que presentaran en su definición 
el verbo subir o bajar, mientras que para observar los dominios BUENO y MALO se empleó 
el recurso del lexicón de polaridad con el fin de observar el comportamiento discursivo de 
estos dominios conceptuales que física, cultural y socialmente son entendidos a nivel gene- 
ral como positivos y negativos, respectivamente. 

A partir de los resultados mostrados en el apartado anterior, se puede confirmar que la 
relación entre verbo con orientación ya sea ARRIBA O ABAJO y la polaridad ‘positiva y ne- 
gativa, respectivamente, se manifiesta a nivel lingúístico y es coherente con los postulados 
de la metáfora orientacional (Lakoff & Johnson 1980, 1999b; Lakoff, 1993). Es decir, un 
verbo con significado ‘arriba’ tiende a aparecer combinado con unidades léxicas son sen- 
tido positivo, y un verbo con significado “abajo' tiende a aparecer combinado con unidades 


léxicas con sentido negativo. 
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Como trabajo futuro, el algoritmo confeccionado se puede aplicar empleando otros 
lexicones que permitan analizar el uso de otras expresiones metafóricas, como puede ser, 
por ejemplo, el caso de un lexicón de términos bélicos que aporte en el análisis de la me- 
táfora estructural LA DISCUSIÓN ES UNA GUERRA en su dimensión lingúística. Para ello, se 
podrían, eventualmente, extraer expresiones de foros o situaciones comunicativas en las 
que personas debatan con respecto a un tema y hacer la búsqueda de las unidades del le- 
xicón de términos bélicos en estas expresiones de situaciones comunicativas de debate o 
discusión. Este es uno de los tantos ejemplos en los que el algoritmo puede contribuir en 
los estudios de las metáforas conceptuales con métodos de estadística de corpus. Asimismo, 
el léxico trabajado en cuanto a verbos con polaridad ARRIBA/ABAJO se puede ampliar me- 
diante otras técnicas, como por ejemplo utilizando algoritmos de aprendizaje automático. 
Alternativamente, también se podría intentar la expansión del lexicón de polaridad utili- 
zando los mismos métodos de esta investigación. Por ejemplo, 8 de 10 los verbos estudiados 
tienen una dependencia estadística con la polaridad asignada, lo que implica que se pueden 
agregar al lexicón de polaridad escalar y trepar como unidades léxicas positivas y agachar 
como una unidad léxica negativa, entre otros verbos que actualmente no se encuentran en 


dicho recurso. 
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UnderRL Tagger: un software libre 
para etiquetar POS en Under- 
Resourced Languages 


José Luis Pemberty Tamayo & Jorge Mauricio Molina Mejia 
Universidad de Antioquia - Colombia 


Abstract: This chapter presents a free software program that can be used for POS 
tagging in a multiplicity of languages that do not have automatic taggers. The pro- 
gram aims to facilitate the work with corpora in these languages through Natural 
Language Processing. Its operation allows the manual tagging process to be gradu- 
ally automated thanks to a system that makes it possible to recall and reuse tags, as 
well as to handle large amounts of text and to generate output files in XML format 
with tags based on the EAGLES system. 

Resumen: En este capitulo se presenta un software libre que puede utilizarse para 
el etiquetado de POS en una multiplicidad de lenguas que no cuentan con etiqueta- 
dores automáticos. El programa busca facilitar el trabajo con corpus en estas lenguas 
a través de la lingúística computacional. Su funcionamiento permite que el proceso 
manual de etiquetado se convierta poco a poco en automático gracias a un sistema 
que permite recordar y reutilizar las etiquetas, de la misma manera en que permite 
manejar grandes cantidades de textos y generar archivos de salida en formato XML 


con etiquetas basadas en el sistema EAGLES. 


UnderRL Tagger is a free software for semi-automatic POS tagging of languages without many linguistic resources, 
which has been created within the framework of the college work of J. L. Pemberty Tamayo (2020), within the re- 
search team Corpus Ex Machina (Facultad de Comunicaciones y Filología, Universidad de Antioquia). The computer 
program has been patented in 2020 by J. L. Pemberty Tamayo, J. M. Molina Mejia and M. |. Marin Morales (2020). 
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Introduction 

One of the most notorious aspects in the research and study of current Linguistics is the use 
of textual corpora for various purposes, for example: grammatical analysis (Parodi, 2010; 
Biber & Finegan, 2014; Jones & Waller, 2015), anaphora resolution (Mitkov, 2014; Poesio, 
Stuckardt & Versley, 2016; Grajales Ramirez & Molina Mejia, 2019), statistical analysis by 
means of corpora (Beaudouin, 2016; Brezina, 2018; Wallis, 2021), etc. On the other hand, it is 
possible to observe the way in which a strong relationship has been established with Com- 
putational Linguistics (Mitkov, 2004; Wilks, 2010; Molina Mejia, 2021), precisely for the 
processing, handling, and interpretation of required amounts of data (Zeroual & Lakhouaja, 
2018). Within this scenario, written texts play a prominent role, since they lend themselves 
to computational processes more easily than other forms of language use (Baquero Velasquez, 
2010; Parodi, 2010). Such ease has made it possible to standardize different levels of annota- 
tion or tagging, which are ways of enriching the information in the text, making the linguis- 
tic notions underlying their use patent (McEnery & Hardie, 2011). An example of this is the 
POS (Part-of-Speech) level, the simplest and most necessary as a first step in the annotation 
of texts with linguistic information (Parodi, 2010; Straka & Strakova, 2017). 

The aforementioned process acquires importance when considering the purposes pur- 
sued by Corpus Linguistics, because it permits computers to process information to which 
they would not otherwise have access. In this sense, software products have also been built 
that, based on different systems of rules or artificial intelligence, can automatically perform, 
with a high degree of success, common forms of tagging in different languages, generally 
the most widely spoken ones such as Spanish, English, French, German, among others 
(Molina Mejia, 2021). 

Automation in the case of corpus tagging is of great importance, since the manual work 
that would be required to annotate a robust corpus of texts is quite expensive in time, effort 
and human resources, not to say that it can often seem impossible. This situation places 
languages that do not have the computerized means to be processed efficiently, at a disad- 
vantage; since the need for manual work limits the information that can be taken for an 
investigation, as well as it can dissuade potential scholars from dedicating themselves to 
taking them as an object of work. This group is known as Under-Resourced Languages 
(henceforth URLa) (Krauwer, 2003). 

Considering all of the above, this chapter presents “UnderRL Tagger” (Pemberty Ta- 
mayo, Molina Mejia & Marin Morales, 2020), a software that aims to help researchers in 
the process of tagging textual corpora in URLa, based on a system that permits to recall 


the tags associated with certain words and automating their annotation as much as possi- 
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ble (Pemberty Tamayo, 2020). It should be noted that the aim of the work is not to achieve 
fully automatic tagging, but to assist the manual process, as will be seen in the following 
pages. This program is the result of work done at the level of conception and elaboration 
of semi-automatic POS tagging systems for Under-Resourced Languages (Pemberty Ta- 


mayo, 2020; Pemberty Tamayo & Molina Mejia, 2020; Pemberty Tamayo et al., 2023). 


2. State of the Art 
As mentioned in the previous section, a clear antecedent of the works whose subject is 
corpus annotation are the computer platforms and computational tools that currently 
fulfill the task of automatically tagging large amounts of texts in different languages. Some 
well-known free access tools are TreeTagger? (Schmid, 1994) and TagAnt? (Anthony, 2015), 
which could help with the tagging of some different languages at the Part of Speech -POS- 
level (Weisser, 2018). 

Other prominent names are FreeLing* (Padró, Collado, Reese, Lloberes & Castellón, 
2010) and Stanford Parser’ (Schuster & Manning, 2016), which allow annotation at differ- 
ent levels of analysis such as parsing (generation of syntactic trees from dependency gram- 
mar and immediate constituents, alternatively), recognition of coreferential chains (anaph- 
ora and cataphora), elaboration of semantic graphs, analysis of named entities, etc. 
Regarding FreeLing, it is important to note that this program uses the EAGLES system as 
a standard for the annotation of the different human languages. 

The EAGLES are a series of conventions adopted by different groups in the work with 
corpora; they were proposed by the “Expert Advisory Group on Language Engineering 
Standards” (Leech & Wilson, 1996) and consist of a series of regulations in the use of certain 
codes for the different possible values in the tagging of POS notions. Bearing this in mind, 
the work presented here also embraces this standardization, its existence being an impor- 
tant antecedent in the definition of the algorithms described later in this chapter. 

Within the framework of the creation of a computer system destined to under-re- 
sourced languages and minority languages, it is important to start from a standardized 


morphosyntactic tagging system. In this way, both researchers and specialists in this type 


2 TreeTagger is a tool for annotating text with POS and lemma information. More information can be found at 
the following link: https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 

3 TagAnt is a freeware POS tagger built on TreeTagger tool. You can download the tool and find more informa- 
tion at the following link: https://www.laurenceanthony.net/software/tagant/ 

4 Information regarding FreeLing and the possibility of downloading the tool can be found at the following 
link: http://nIp.Isi.upc.edu/freeling/node/1 

5 The Stanford Parser can be viewed and downloaded at the following site: https://nlp.stanford.edu/software/ 
lex-parser.shtml 
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of language will be able to understand each other. Starting from this premise, it was decid- 
ed to aim to have the tags proposed by the EAGLES project. This should permit the program 
to be used by specialists in minority and under-resourced languages in different geograph- 
ical and linguistic contexts, and the data obtained from research in different languages to 
be shared globally. It is also worth mentioning different academic works that focus on the 
computational treatment of URLa; These works are based on approaches as varied as the 
annotating of specific languages, such as Arabic and Vietnamese (El-Haj, Kruschwitz & 
Fox, 2015; Le & Besacier, 2009); speech recognition (Besacier, Barnard, Karpov & Schultz, 
2014) or corpus collection by obtaining texts from the web (Scannell, 2007). These works 
share with “UnderRL Tagger” their concern for this group of languages, but they also have 
the difference that they do not properly deal with automated assistance in manual corpus 
tagging and their approaches are, in most cases, monolingual. 

Unlike these studies, two remarkable computer programs have also been found, since, 
although they do not mention the concept of URLa in their documentation, they mark 
more notable antecedents in relation to the objective of this work. These are “FieldWorks 
Language Explorer” (Moe, 2008) and “Field Linguist’s ToolBox” (Buseman & Buseman, 
2013), both designed to manage corpora in different languages, mainly with the intention 
of processing them at the lexicographic level and in order to finally produce a dictionary 
of the languages worked by each of them (Rogers, 2010). 

However, these software programs, given the breadth of their field of application, could 
hinder the simplest task of obtaining an annotated corpus in each language, in addition to 
the fact that they also lack a standardization in the field of Corpus Linguistics such as those 
mentioned in EAGLES. In this sense, they are established as antecedents of this work, but 


their functionalities are not the same as those of “UnderRL Tagger” (Pemberty Tamayo, 2020). 


Theoretical Framework 


Computational Linguistics and Natural Language Processing 

Computational Linguistics is usually defined as a discipline whose purpose is the construc- 
tion of computer systems that process linguistic structures and simulate human linguistic 
capabilities (Moreno Sandoval, 1998, pp. 29-30). This discipline is framed within Applied 
Linguistics (Moreno Sandoval, 1998; Tordera Yllescas, 2011, Molina Mejia, 2021) and, fol- 
lowing the opinion of several authors (Saiz Noeda, 2002; Tordera Yllescas, 2011), it will be 


considered in this chapter as a synonym of NLP (Natural Language Processing). 
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Although many authors agree on this general definition, there are different ways of 
delimiting the scope of Computational Linguistics. From practical approaches that include 
all types of computer language processing (Mitkov, 2004, p.15), to more theoretical points 
of view, which focus on how the simulation of linguistic capacity helps to understand 
linguistic behaviour of natural languages (Tordera Yllescas, 2011). Considering, in addition, 
the use or creation of computational models or tools that allow the computational process- 
ing of natural languages, which should permit, a fortiori, that the language itself can serve 
as an input for scientific research and/or formulation of programs that can be applied in 
life, in society in general, thanks to the analysis of linguistic corpora in context (Molina 
Mejia, 2021). 

In this difference of opinions, intermediate approaches have been found, such as that 
of Moreno Sandoval (1998), who proposes the following applications: a) systems that try 
to emulate the human capacity to process natural languages; b) programs to aid writing 
and textual composition; and c) computer-assisted teaching and linguistic task support 
systems (pp. 27-29). This last group includes tools for managing and annotating linguistic 
corpora, i.e., the work presented here. This list of applications can be extended with more 
current functionalities, following Nerbonne (2007) and Molina Mejia (2021): a) speech 
recognition; b) speech synthesis; c) data mining; d) automatic completion systems in 
smartphones; e) management of academic documents and databases; f) conversational 
systems; g) automatic topic detection; h) automatic summarization; i) automatic document 
classification, among others. 

It is also common to find that Computational Linguistics is understood from its division 
into theoretical and applied. Theoretical Computational Linguistics deals with the con- 
struction of linguistic abstractions that encompass both computer and natural language 
phenomena, as well as the construction of algorithms that help model and test these ab- 
stractions (Nerbonne, 2007, p.3). Applied Computational Linguistics is dedicated to the 
construction of computer tools to manipulate language for different purposes (Nerbonne, 
2007). The delimitation of these applications, as mentioned above, varies depending on the 
authors, however some may be mentioned: a) automatic translation; b) information re- 
trieval; c) human-machine interfaces; d) text analysis tools; e) lexicographic databases; f) 
spelling, syntax, and style checkers; and g) educational programs for language teaching 


(Moreno Sandoval, 1998, pp. 27-29). 
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Corpus Linguistics 

Corpus Linguistics is defined as a “methodology for languages and language research, 
which allows empirical investigations to be carried out in authentic contexts” (Parodi, 
2010, p.15). Considering the empirical and authentic character indicated by this definition, 
this methodology can be related to the functionalist model of linguistics, which seeks to 
understand linguistic phenomena in real situations. This model is opposed to the genera- 
tivist model, which is dedicated to theorizing about phenomena through linguistic intui- 
tion (Baquero Velasquez, 2010, p.25; McEnery & Hardie, 2013). 

s tasks that fit within Corpus Linguistics, we can include the collection, processing and 
analysis of large amounts of data representative of the use of the language or languages that 
are assumed as object of study (Baquero Velasquez, 2010; Bernal Chavez & Hincapié More- 
no, 2018; McEnery & Hardie, 2011). There is, moreover, a marked interdisciplinarity in this 
methodology, as it works both for the investigation of phenomena at any level of the lan- 
guage and to help in meeting the objectives of different fields of Applied Linguistics (Par- 
odi, 2010, p.15). 

Given that authenticity, representativeness and interdisciplinarity have been such im- 
portant aspects in working with corpora; the relationship that can be established between 
Computational Linguistics and Corpus Linguistics becomes evident, since the former has 
provided the necessary mechanisms for handling large amounts of data information and 
its processing by various means (Baquero Velásquez, 2010; Bernal Chavez & Hincapié 
Moreno, 2018; Parodi, 2010) and, on the other hand, the need for corpora that possess a 
high level of quality and variety in discourses and textual typologies (Molina Mejia, 2021). 

This relationship is even taken for granted nowadays, through authors who go so far as 
to define a corpus as a series of texts that can be processed by computers (McEnery & 
Hardie, 2011, p.1). However, this relationship has not always been present, and in previous 
times, such as the mid-twentieth century (Bernal Chavez & Hincapié Moreno, 2018, p.12) 
and even the nineteenth century (Baquero Velasquez, 2010), it has been necessary to carry 
out work with corpora manually. This implied enormous complications, since the more the 
amount of data with which one works grows, the greater sums of time, money, effort, and 
human capital are necessary, making some tasks unfeasible (Mitkov, 2001, p.110). 

The help of computational means has therefore come to reduce the resources required 
in these jobs and also the risk of human errors and loss of information. However, not all 
languages have the appropriate tools to make use of these technologies, which places them 


at a considerable disadvantage, insofar as it is not possible to carry out work of the same 
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magnitude with them as with languages that are more accessible to computer processing 


(Baquero Velasquez, 2010, p.28). 


3.2.1. What is a corpus? 

The term corpus has already been used in the previous sections and, before continuing, it 
is necessary to dedicate a few paragraphs to clarify its definition. We will start from the 
proposal of Bernal Chavez and Hincapié Moreno (2018), for whom a corpus is a set of 
digital texts that are collected and systemized following linguistic criteria. Note in this 
definition the importance of computational means with respect to the need for texts to be 
digital; in addition to this, it is also fundamental the fact that the collection and systemat- 
ic organization of the corpus is done with respect to these linguistic criteria; this is the 
main characteristic that distinguishes a corpus from any other collection of texts. 

For its part, Parodi (2010) proposes a more specific list of characteristics that can guide 
us in understanding what a perfect corpus is: 
1 Collection of texts in natural environments. 
2 Explicitly of the defining features shared by the constituent texts. 
Final plain digital type format (*.txt) for each text or document. 
Size, preferably large. 


Respect for ecological principles. 


An un A W 


Semi-automatic computational tagging or annotation of a morphosyntactic or other 

nature for each text. 

7 Availability through computational means. 

8 Access to complete visualization of the texts that compose it in plain format. 

9 Search for principles of proportionality or representativeness (possibly statistical). 

10 Livelihood or initial provenance specified. 

11 Identification of an organization around themes, types of texts, registers, genres, etc. 

12 Record of quantitative data that allows the comparison and possible normalization of 
figures (p.26). 

13 And to comply with all these elements at the same time, but that the importance of each 


one can vary depending on the specific objectives of each collection of texts (p.27). 


In these characteristics, the need for computational processing is also evident, as well as 
the need to make explicit the features shared by the texts; this may or may not be part of a 
tagging or annotation, which is also part of the above list. With this in mind, an important 


part of corpus work is usually the enrichment of textual information with other types of 
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information that provides clarity about the underlying linguistic notions. This process is 


known as tagging, and it will be the object to be dealt with in the next section. 


Corpus Annotation 

The construction of a corpus is a process that goes through different phases, which include 
its design, data capture, storage system planning and text processing (Bernal Chavez & 
Hincapié Moreno, 2018, p.53). Within this last step is a process called annotation. 

A clearer definition of corpus annotation can be found in the work of McEnery and 
Hardie (2011): “[...] is largely the process of providing —in a systematic and accessible 
form— those analyses which a linguist would, in all likelihood, carry out anyway on what- 
ever data they worked with” (p.13). It is very important to take into account, from this 
definition, the fact that the data included in the tagging are those that a linguist could ex- 
tract from the collected texts, that is, the linguistic information that is implicit within the 
use of language and that it must be made visible in a systematic way so that it can be rec- 
ognized and processed by computer programs. 

To achieve this systematic way of describing the information, specialized languages are 
used in tagging, which help to assign different types of values to each of the elements of 
the text, depending on what is to be said about them. Some of these languages are XML 
(Extensible Markup Language), HTML (HyperText Markup Language) and GML (Gener- 
alized Markup Language), as Bernal Chavez and Hincapié Moreno (2018, p.57) explain. 
JSON (JavaScript Object Notation) language and some standardized formats such as TEI 
(Text Encoding Initiative) are also used very frequently, according to Molina Mejia (2021). 
Thus, the result of a tagging process is usually a text in a format different from the original, 
in which part of its implicit information is made visible. 

The information that could be included in corpus annotation can be as wide as the 
elements that play a role in communication are different and as varied as the objectives that 
each researcher has when planning the construction of the corpus. In this sense, there is 
great freedom in choosing what will be explicit in the tags of a corpus. However, in current 
work it is possible to note that some forms of tagging have become standardized. 

Two common types of annotations are the syntactic parsing, which focuses on analysis 
of the functions that each word fulfils in the syntax of the sentence (Parodi, 2010, p.40) and 
the POS (Part-of-Speech) tagging, also known, following Mitkov (2004), as morphological 
or lexical annotation. Although the term part-of-speech refers to something specific, this 
type of tagging usually presents, in addition to this data, information on gender, number, 


case, tense, mood, aspect and person (p.225). 
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There are different approaches to perform this task. For McEnery and Hardie (2011, 
p.49), a corpus can be tagged manually, automatically or an automatic process followed by 
a manual review. The application of these methods may vary in their margin of error and 
in the time and effort to be devoted to tagging, but as will be seen below, their choice de- 
pends on how easy it is for a researcher to access automatic tagging methods in a given 


language. 


Under-Resourced Languages 

Considering the aforementioned concepts, the importance of having properly compiled 
and annotated corpora is evident, as well as the availability of tools for automatic language 
processing in the studies that can be carried out in a given language (Pemberty Tamayo, 
2020). Thus arises the concept of Under-Resourced Languages, which can be defined as 
the set of languages that do not have the computer resources for their automatic process- 
ing, as well as the lexicographic and corpus inputs that would serve as the basis for the 
construction of these tools (Krauwer, 2003). 

A definition can also be found ina series of criteria proposed in the works of Krauwer 
(2003) and Berment (2004), which propose the tools that a language must have in order to 
be considered as having a basic level of access to computational linguistics technologies. 
Languages that lack several of these elements are thus considered to be Under-Resourced 
Languages: 

a Lack ofa single writing system or a stable spelling. 

b Limited presence on the web. 

c Lack of experts in Linguistics. 

d Lack of electronic resources for speech and language processing. 
e Lack of monolingual corpus. 

f Lack of electronic bilingual dictionaries. 

g Lack of transcribed oral corpus. 

h 


Lack of pronunciation dictionaries and vocabularies. 


As Maxwell & Hughes (2006, p.29) mention, the availability of such tools in a language, 
coupled with other extralinguistic factors, can greatly influence a researchers decision to 
work with it. This means that the lack of tools makes research in some languages less fre- 
quent and, therefore, the creation of the same tools could be slow and difficult. The avail- 
ability of these elements, at the same time, makes different applications of information and 


communication technologies, such as machine translation or digital dictionaries, available 
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to speakers of the language. That is why filling the gap in terms of tools for computational 
processing in these languages is not only an academic interest, but also benefits the com- 
munities in which the language is spoken (Pemberty Tamayo, 2020). 

Based on all the topics explored in this section, the need for tools for corpus tagging in 
Under-Resourced Languages is evident. The UnderRL Tagger tool (Pemberty Tamayo et 
al., 2020) proposes, through Computational Linguistics, a system that allows manual tag- 
ging of large amounts of texts in different languages, with the help of the computer, which 
provides the facility to speed up the process by a significant proportion. This process can 
also produce content that can be reused to annotate other corpora in the same language 
and serve as a basis for the creation of applications that allow the fully automatic tagging 


of texts (Pemberty Tamayo, 2020; Pemberty Tamayo et al., 2023). 


Methodological Framework 

Before describing the methodology through which this software is built, it is necessary to 
explain some elements that have served to frame it in a standard that facilitates its use in 
the current environment. 

Taking into account that the main objective of the application has been selected as the 
POS level in tagging, the use of the EAGLES tag system (Leech & Wilson, 1996) was ac- 
cepted for this purpose, which allows coding information such as grammatical category, 
gender, number, etc., in a brief way, through different numbers and letters. An example is 


shown below: 


Table 1. Example of EAGLES tags for a Spanish sentence. 


I BUY BREAD 
PP1CSNO VMIP1S0 NCMS000 


The table above shows how EAGLES tags are used to specify the information for each of 
the words. However, these series of letters and numbers must be converted into a markup 
language that can be computationally processed and parsed. To achieve this goal, the pro- 
gram uses the XML language, which allows assigning individual elements within a series 
of defining characteristics. Thus, in this language the corresponding tag can be assigned to 
each of the text components. Both the EAGLES tags and the XML language correspond to 
standards widely used in the corpus tagging environment, so their use guarantees under- 
standing by a wide variety of researchers in the field, as well as easy integration with pre- 


vious projects or work that may have been carried out. 
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4.1 Description of the program structure 
The UnderRL Tagger software interface consists mainly of a window that can be interacted 
with to navigate between corpus files, set tags and save or retrieve previous sessions. This 
window constantly interacts with other files and folders that record everything necessary 
to make the tagging process as efficient and correct as possible. 

One of the folders is used by the system to store the data of the different dictionaries 
that are created. The dictionary is a file in which the tags that can be reused in a given 
corpus are stored, so that it is not necessary to re-enter them manually. 

Another important location is the folder where the XML files containing the already 
tagged texts are stored; this folder is automatically created in the same directory as the 
original corpus texts. In addition, there is also a set of files that record at all times which 
annotation projects are running and what their progress is; so, it is easy to interrupt the 
tagging task at any time and come back to it later. 

From here, the program can enter all the texts that make up the corpus, which must be 
in plain text format (*.txt) and UTF-8 encoding, in which the computer will recognize a 
wide variety of characters. All of them must be stored in a single folder, the address of which 
will be entered in the application. 

Once the texts are available, the software will proceed to go through each of them, as 
selected by the user, and perform a process that consists of separating the text by words. Once 
the words have been separated, the main window shows the user each one of them, allowing 
the user to select more than one when necessary. For each word, the user can select, through 
several controls, the characteristics of the word to be tagged and the program takes care of 
representing them according to the EAGLES model. In addition, a space in the interface 
permits the creation of new tags or the editing of the default ones; in this way it is possible to 
expand the tagging possibilities according to the needs outside the POS. Finally, once a tag 
has been established, the user can save it in the final XML file, where it will be arranged with 
the rest of the text, with its corresponding tag and a unique identifier. 

In addition to simply tagging the word, the user can choose to save that tag in the dic- 
tionary, so that each time the same word appears in the corpus, it will be automatically 
tagged without user intervention. This is how this software helps to greatly automate an- 
notation, as it allows human intervention to be reduced to the points where it is really 
necessary. Each time the tagger encounters a new word, it looks it up in the dictionary 
before displaying it on the screen, so the same text can go through considerable chunks 


before requiring human attention. 
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As a consequence of this procedure, the dictionary can be strengthened as the tagging 
progresses, permitting for greater automation and also providing a file that can be used to 
tag other texts in the same language or as a basis for other programs that require knowledge 
of these notions for language processing. 

When a user perceives that the tagging of a word cannot be automated because it may 
present variations in its tags throughout the corpus, he can simply choose not to save it in 
the dictionary, so that each time it appears he will be presented in the main window of the 
interface and will be allowed to choose the tag he considers appropriate for each occasion, 


as mentioned in Pemberty Tamayo (2020). 


5. Analysis of the algorithms 

UnderRL Tagger is a software written in Python language that can be used for semi-auto- 
matic tagging of POS in Under-Resourced Languages, putting the methods of Natural 
Language Processing at the service of Corpus Linguistics, and allowing the tagging process 
to be significantly speeded up by automating several of its stages (Pemberty Tamayo, 2020; 
Pemberty Tamayo et al., 2023). 

When a user correctly enters the address of a folder containing the texts of a corpus, 
the first actions performed by the program are to verify the existence of the texts and to 
create the files and folders necessary to store the records involved in the process (Figure 1), 


as described in the methodological framework. 


(User) 
Enter project name, 

corpus folder address and; 
dictionary file(Optional) 


Given 
address 
exists? 


(System) 
Create new saved file 
with corpus and 
dictionary addess 


(System) 
Create new folder for 
tagged files 


Figure 1. Flowchart: Starting a New Project. Adapted from Pemberty (2020). 
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All the information that the System stores in addition to the XML tagged texts is in folders 
that must be in the same directory in which the program is running, and for this purpose 
files are used that are also in plain text format, so that they can be easily read and modified 
in case a mistake has been made, for example, by creating an erroneous tag in the dictionary. 

Once these files have been prepared, the tool goes on to tag the texts. To exemplify what 
will happen in each of the steps, we will take here the same sentence that is proposed in 
the work from which this program arises. This fragment is an example of the Creole lan- 
guage of the islands of San Andres (Colombia) and is shown below along with a brief 


analysis (Table 2): 


Table 2. Description of the “Sentence A” (Pemberty, 2020, p.31). 


Sentence A 
Word Di bwai gwain da di niu house 
POS Article Name Verb Preposition Article Adjective Name 
Translation The boy goes to the new house 


Before showing the user the texts to be tagged and the diverse options, it is necessary that 
the text is processed in a specific way. In previous sections it has been said that the text is 
divided into words and categories are assigned to each of them. In this sense, it is impor- 
tant to specify that the appropriate concept is not that of a word, but that of a token. 
According to Mitkov (2004), a token is a minimal linguistic unit that can correspond to a 
word, a number, or a punctuation mark. An important difference between a token and a 
word is that the latter remains a single element regardless of whether it appears several 
times in one or in many texts, whereas the former corresponds to a single occurrence, so 
each of them must be differentiated in relation to the others. The process of dividing a text 


into its component tokens is called tokenization. 
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(System) 
Update save 
file 


(User) 
Select text 


There is an 
existing XML? 


No 


Y 


(System) (System) 
Asign nexttoken as Create a new XML in 
new token Tagged folder 


A, EE 


(System) 
Tokenize original bd 


(System) 
Assign and display 
token's new 
information 


> 


(User) 
Enter a new tag 
for the token 


Is token in 
dictionary 
file? 


Automatic tagging, 
taking information from 
dictiona 


Figure 2. Flowchart: Pre-processing of a selected text. Adapted from Pemberty (2020). 


The software checks the file system to see if there is previous information on the same text 
so that it can be retrieved and continue where the work left off, as well as checking from 
the first token of the text if there is a set of tags for it in the dictionary, as can be seen in the 
diagram above. Assuming that this is a new project that has no tags in its dictionary, the 
result of this process will simply be the tokenized text. 

It is also important to note that tokens are usually identified through the blank space 
between two words; however, there are also many units that are made up of two or more 
words separated by spaces that would be erroneous to tagged as distinct or non-consecutive 
tokens. These units are called multi-token words and examples of them can be phrases or 
some ways of referring to numbers (Mitkov, 2004). To annotate these units, the system 
offers the possibility of chaining some tokens with others, being able to create a composite 


unit between one element and the one that follows it. 
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All the checks seen in Figure 2 are performed automatically by the system, so for the 
user only a moment passes between selecting a text to tag and the first tokens and controls 


to set the tags are displayed in the window. 


Current Text: Example1.bt 
Current Token: 0 


TOKEN 
If you want to tag more than one token, select the number using the buttons on the right 


Di 


bwai gwain da di niu house. 


+ E) 


TAG 


Use the boxes below to select the morphosyntactic elements of the token 


Determiner D bd Article A bd 3 X Common C y 


Singular S ¥ Singular S hd 


Click on "Show tag” button to see the EAGLES tag 

You can edit the tag if EAGLES is not exactly what you need or just jump boxes selection and write one 

Click on "Simple tag” button if you want to assign this tag to this token only for this time 

Click on "Fix on Dict." button if you want to save this tag for this token and use it automatically every time it appears on this corpus 


A Simple Fix on 
pS 


Figure 3. Example of the program window with a tagged unit (Pemberty Tamayo, 2020, p.33). 


The program presents the user with the first token of “Sentence A” as well as others that are 
useful for understanding the context in which each one appears, as shown in Figure 3. 
Likewise, a series of drop-down lists are enabled for the user that will permit him to choose 
between distinct categories that could be assigned to the token that is selected. From the 
various selections, the tag will be created. 

The diverse possibilities available to the user vary depending on the first selection to be 
made, that of the part of speech to be attributed to the token, from which the others are 
derived. Thus, the amount of information required and its type change when one of these 
categories is selected. 

Once you have selected the appropriate items in the drop-down lists, click on the “Show 
tag” button, which permits the user to visualize, in the text bar at the bottom, the tag that 
has been created from the information entered and following the EAGLES system. In the 
drop-down lists the options are expressed with words commonly used in the field of Lin- 
guistics, while the tag only shows its equivalent in the annotation system, as shown in the 
previous image; in this way, it is not necessary for the user to be perfectly familiar with the 
EAGLES tags to be able to use them, since the program takes care of establishing which 
characters are necessary. 

The user can already set that tag for that token; however, he be able also to edit it, in 


case he needs to add additional information of interest for his work. Thus, the tagger per- 
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mits researchers to create their own tags based on EAGLES or completely new ones, so it 
could be used not only for URLs, but also in other languages to tag phenomena outside the 
POS level. This flexibility let the user to work according to the theory or linguistic approach 
he prefers or needs. 

There are also two options to fix the tag and bring it definitively to the output XML file. 
The first is “Simple Tag’, which takes whatever is on the bar where the tag appears and 
fixes it in the output file associated with that particular token and its ID number. 

On the other hand, there is a button called “Fix on Dict”. It permits to fix what is writ- 
ten in the tag bar in the dictionary file associated to the selected token; besides that, it 
performs the procedure of fixing that occurrence of the token in the XML file. 

This second option should only be applied when there is certainty that the same tag 
could be used on all occasions when the same word or combination of words occurs in the 
token. This can easily be applied to articles, punctuation marks, prepositions, or adverbs, 
and even to most nouns, adjectives and verbs. This feeds the dictionary, which will be used 
to automatically tag tokens that match the information it contains. For cases where the tag 
may vary, the first option will be used, as the absence of that tag in the dictionary will always 
prompt the user to manually select the appropriate categories. An example dictionary file 


is shown below: 


entry . **** Fp 

entry_ bwai ***** NCMS --- 
entry_ di ***** DA-CNS- 
entry_ house ***** NCFS--- 
entry_ niu ***** AQ-CS-- 


Figure 4. Tokens and dictionary entries (Pemberty Tamayo, 2020, p.38). 


As shown in Figure 4, this file consists of several lines of text that associate each token with 
the tag that has been assigned to it. The characters found at the beginning and in the mid- 
dle of each line are used by the system to differentiate these two elements. The dictionary 
lookup consists of going through this set of alphabetically ordered lines and taking from 
them the tag if a match is found, and then taking it to the output file. 

By constantly repeating the process of feeding the dictionary with new tokens and tags 
and allowing the tagger to automatically find and fix as many word occurrences as possible, 


a significant reduction in the effort required to have a fully XML tagged corpus is achieved. 
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<?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
<text name="Ejemplo1.txt"> 


<token form="Di" tag="DA3CNS" id="t.0.1"/> 
<token form="bwain" tag="NCMS--" id="t.1.1"/> 
<token form="gwain" tag="VMIP3SC" id="t.2.1"/> 
<token form="da" tag="SP----" id="t.3.1"/> 
<token form="di" tag="DA3CNS" id="t.4.1"/> 
<token form="niu" tag="AQ-FS-S" id="t.5.1"/> 
<token form="house" tag="NCFS--" id="t.6.1"/> 
<token form="." tag="Fp" id="t.7.1"/> 

</text> 


Figure 5. Final XML example. 


Finally, Figure 5 illustrates what “Sentence A” tagged with the UnderRL Tagger system 
would look like in your output file. The XML file has an identification of the text in ques- 
tion and all the tokens that make it up. For each of these tokens, the form information is 
available, which is the exact way it appears in the text; tag, which is the annotation that was 
established for it and an ID, which is a number that identifies it and differentiates it from 
all other tokens in the text. This ID is composed of the letter “t’, an integer that refers to 
the position of the token in the text and another integer that refers to the number of words 


that make up the token, which varies in the case of multi-token words. 


Conclusions and Perspectives 

During this chapter we have seen how it is possible to use Natural Language Processing 
applications in corpus tagging in languages that do not yet have access to automatic anno- 
tation tools, making it possible that, through diverse processes, to achieve a part of what 
would be enormously expensive if executed completely manually. 

The UnderRL Tagger software (Pemberty Tamayo et al., 2020), the tool described in the 
previous pages, aims to bring URLa closer to information and communication technolo- 
gies, as well as to facilitate to have them as an object of investigation. For all these reasons, 
as we have seen in the theoretical framework of this chapter, the existence of computer 
tools capable of processing and tagging corpora in these languages is of utmost importance. 

Thus, through a window-based interface and simple controls, UnderRL Tagger enables a 
highly computer-assisted and automated manual handling tagging process, offering users the 
possibility to adhere to international standards in the field of Corpus Linguistics, choose their 
own tagging system and even annotate outside the POS with any other desired phenomena. 
Similarly, it allows the management of dictionary files that can be used in the future to further 


tag texts in the same language or share them with other researchers. Finally, it is important 
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to note that this software is freely available and can be found in the repository of the main 


author of this work: https://github.com/jluispemberty/UnderRI Tagger. 
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